Python 文档解析lxml库的使用详解-偶像资源网

1.lxml库简介

lxml 是 Python 常用的文档解析库，能够高效地解析 HTML/XML 文档，常用于 Python 爬虫。

lxml 为第三方库，需要我们通过pip命令安装：

pip install lxml

2.lxml库方法介绍

lxml 库提供了一个 etree 模块，该模块专门用来解析 HTML/XML 文档，让我们先导入模块：

from lxml import etree

使用 etree 模块的 HTML() 方法可以创建 HTML 解析对象：

from lxml import etree
parse_html = etree.HTML(html)

HTML() 方法能够将 HTML 标签字符串解析为 HTML 文件，并且可以自动修正 HTML 文本：

from lxml import etree
html_str = \'\'\'
<div>
    <ul>
        <li><a href=\"www.python.org\">Python</a></li>
        <li><a href=\"www.java.com\">Java</a>
        <li><a href=\"www.csdn.net\">CSDN</a></li>
    </ul>
</div>
\'\'\'

html = etree.HTML(html_str)
# tostring()将标签元素转换为字符串输出，注意：result为字节类型
result = etree.tostring(html)
print(result.decode(\'utf-8\'))

上述代码我故意在Java那一行少写一个</li>，可以看到输出会自动补全：

<html><body><div>
    <ul>
        <li><a href=\"www.python.org\">Python</a></li>
        <li><a href=\"www.java.com\">Java</a></li>
        <li><a href=\"www.csdn.net\">CSDN</a></li>
    </ul>
</div>
</body></html>

解析为 HTML 文件后，我们可以使用 xpath() 方法来提取我们需要的数据了：

from lxml import etree

html_str = \'\'\'
<div>
    <ul>
        <li><a href=\"www.python.org\">Python</a></li>
        <li><a href=\"www.java.com\">Java</a></li>
        <li><a href=\"www.csdn.net\">CSDN</a></li>
    </ul>
</div>
\'\'\'

html=etree.HTML(html_str)

xpath_bds=\'//@href\'

r_list = html.xpath(xpath_bds)

print(r_list)

xpath() 方法使用一个 XPath 表达式作为参数，上面那段程序提取出了页面里的所有网址。

详细的 XPath 表达式语法，请参见菜鸟教程：
https://www.runoob.com/xpath/xpath-syntax.html

3.代码实例

lxml 库在爬虫中的使用大概就是这么多了，接下让我们结合前一篇文章（Python 网页请求：requests库的使用），来写一个普通的爬虫程序吧：

import os
import sys
import requests
from lxml import etree

x = requests.get(\'https://www.csdn.net/\')


html = etree.HTML(x.text)

xpath_bds = \'//img/@src\'

img_list = html.xpath(xpath_bds)

# 创建img文件夹
os.chdir(os.path.dirname(sys.argv[0]))

if not os.path.exists(\'img\'):
    os.mkdir(\'img\')
    print(\'创建文件夹成功\')
else:
    print(\'文件夹已存在\')

# 下载图片
for i in range(len(img_list)):
    img = requests.get(img_list[i]).content
    if img_list[i].endswith(\'.jpg\'):
        with open(f\'./img/{i}.jpg\', \'wb\') as f:
            f.write(img)
    elif img_list[i].endswith(\'.jpeg\'):
        with open(f\'./img/{i}.jpeg\', \'wb\') as f:
            f.write(img)
    elif img_list[i].endswith(\'.png\'):
        with open(f\'./img/{i}.png\', \'wb\') as f:
            f.write(img)
    else:
        print(f\'第{i + 1}张图片格式不正确\')
        continue
    print(f\'第{i + 1}张图片下载成功\')

这个爬虫程序爬取了CSDN首页的所有.jpg、.jpeg、.png格式的图片，快来自己尝试一下吧！

版权声明 1 本网站名称：偶像资源网
2 本站永久网址：https://www.ox520.com
3 本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长 QQ593098775进行删除处理。
4 本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5 本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6 本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END

Python 文档解析lxml库的使用详解

目录

1.lxml库简介

2.lxml库方法介绍

3.代码实例

请登录后发表评论