Python编程实例:用Python解析数据

Python编程实例:用Python解析数据数据解析是指将一些结构化或半结构化数据从一种形式转换为另一种形式的过程。其中结构化数据与半结构化数据是指具有非常明显固定格式的数据,例如XML、JSON等;而非结构化数据则是指不具有固定格式的数据,例如文本、图片等。

一、什么是数据解析

数据解析是指将一些结构化或半结构化数据从一种形式转换为另一种形式的过程。其中结构化数据与半结构化数据是指具有非常明显固定格式的数据,例如XML、JSON等;而非结构化数据则是指不具有固定格式的数据,例如文本、图片等。

一般来说,数据解析的目的是将源数据转换为能够被程序进一步处理的形式,或将数据以一种更易于人们所理解的形式展现出来。

Python是一种非常适合进行数据解析的语言,Python有着强大的第三方模块支持,使得解析数据变得非常简单。如:BeautifulSoup、lxml等。

二、常用的数据解析方法

1、使用正则表达式


import re

src = 'name:张三 age:20'
pattern = 'name:(?P<name>.+?)\sage:(?P<age>\d+)'
match = re.search(pattern, src)
if match:
    print(match.group('name'), match.group('age'))

2、使用BeautifulSoup


import requests
from bs4 import BeautifulSoup

html = requests.get('http://www.baidu.com')
bs = BeautifulSoup(html.content, 'html.parser')
print(bs.title.string)

3、使用lxml


import requests
from lxml import etree

html = requests.get('http://www.baidu.com')
selector = etree.HTML(html.content)
title = selector.xpath('//title/text()')[0]
print(title)

三、实例:解析XML数据

我们有一个XML数据结构,如下:


<data>
    <country name="Liechtenstein">
        <rank>1</rank>
        <year>2008</year>
        <gdppc>141100</gdppc>
    </country>
    <country name="Singapore">
        <rank>4</rank>
        <year>2011</year>
        <gdppc>59900</gdppc>
    </country>
</data>

我们要将这个XML数据解析出来,可以使用ElementTree库来完成:


import xml.etree.ElementTree as ET

data = '''
<data>
    <country name="Liechtenstein">
        <rank>1</rank>
        <year>2008</year>
        <gdppc>141100</gdppc>
    </country>
    <country name="Singapore">
        <rank>4</rank>
        <year>2011</year>
        <gdppc>59900</gdppc>
    </country>
</data>
'''

root = ET.fromstring(data)
for country in root.findall('country'):
    name = country.get('name')
    rank = country.find('rank').text
    year = country.find('year').text
    gdppc = country.find('gdppc').text
    print(name, rank, year, gdppc)

四、结语

数据解析是Python编程中非常重要的一个环节,Python不仅提供了多种解析数据的方式,还有很多实用的第三方库,可以为数据处理提供强有力的支持。

完整代码如下:


import xml.etree.ElementTree as ET
import re
import requests
from bs4 import BeautifulSoup
from lxml import etree

# 使用正则表达式解析数据
src = 'name:张三 age:20'
pattern = 'name:(?P<name>.+?)\sage:(?P<age>\d+)'
match = re.search(pattern, src)
if match:
    print(match.group('name'), match.group('age'))

# 使用BeautifulSoup解析HTML数据
html = requests.get('http://www.baidu.com')
bs = BeautifulSoup(html.content, 'html.parser')
print(bs.title.string)

# 使用lxml解析HTML数据
html = requests.get('http://www.baidu.com')
selector = etree.HTML(html.content)
title = selector.xpath('//title/text()')[0]
print(title)

# 使用ElementTree解析XML数据
data = '''
<data>
    <country name="Liechtenstein">
        <rank>1</rank>
        <year>2008</year>
        <gdppc>141100</gdppc>
    </country>
    <country name="Singapore">
        <rank>4</rank>
        <year>2011</year>
        <gdppc>59900</gdppc>
    </country>
</data>
'''
root = ET.fromstring(data)
for country in root.findall('country'):
    name = country.get('name')
    rank = country.find('rank').text
    year = country.find('year').text
    gdppc = country.find('gdppc').text
    print(name, rank, year, gdppc)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
转载请注明出处: https://daima100.com/21637.html

(0)
上一篇 2024-03-25
下一篇 2024-03-25

相关推荐

  • mysql数据库监控工具navicat-monitor

    mysql数据库监控工具navicat-monitorhttps://www.navicat.com.cn/download/navicat-monitor 下载 Navicat Monitor 2 Windows | macOS | macOS Ho…

    2023-02-09
    125
  • RadonDB MySQL on K8s 2.1.0 发布!

    RadonDB MySQL on K8s 2.1.0 发布!RadonDB MySQL Kubernetes 于 10 月 22 日发布了第四个版本 2.1.0 [1]。该版本也是由 Operator 方式实现的第二个版本。 该项目的开源,意在为广大的 K8s

    2023-04-26
    125
  • Python获取当前路径

    Python获取当前路径作为一名Python工程师,获取当前路径是日常工作中常常用到的操作。在Python中,获取当前路径有多种方法,本文将从多个方面对Python获取当前路径进行详细的阐述。

    2024-05-07
    51
  • bee must have one register DataBase alias named `default`

    bee must have one register DataBase alias named `default`
    bee must have one register DataBase alias named default 在你初始化db,注册默认数据库时,看看你是否…

    2023-04-07
    147
  • 从一条sql报错解决过程学习程序员查bug的思路

    从一条sql报错解决过程学习程序员查bug的思路从oracle迁移数据到达梦后,发现数据库默认值都丢失了。于是我想从oracle数据库将默认值查出来,在达梦数据库加回去。 于是上网查了一下,看怎么获取oracle数据库字段默认值信息,找到了这个sq

    2023-04-17
    127
  • 基于Python实现邮件发送功能

    基于Python实现邮件发送功能在信息时代,电子邮件已成为人们日常生活、工作中不可或缺的一部分,随着网络通讯日益方便和普及,几乎每个人都有自己的邮箱。因此,邮件发送功能是我们在开发项目中经常会用到的。Python作为一款广泛应用于开发领域的编程语言,自然而然也拥有了在Python环境下实现邮件发送功能的方式和方法。

    2023-12-27
    95
  • baiduwenku简介

    baiduwenku简介随着数字化时代的到来,传统的纸质文献已经逐渐被电子文献所替代。我们可以更加便捷快速地获取各种文献资料、阅读、编辑和分享文献。其中,百度文库(Baidu Wenku)是一个非常受欢迎的在线文献分享和编辑平台,致力于为广大用户提供高质量的文献资源和协同编辑服务。

    2024-07-12
    16
  • Python 3中map函数的用法

    Python 3中map函数的用法map()函数是Python内置的高阶函数,它接收一个函数和一个可迭代对象作为参数,根据函数对可迭代对象中的每一个元素进行处理,最终返回一个新的可迭代对象。

    2024-06-15
    26

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注