Python使用BeautifulSoup4修改网页内容的实战记录-偶像资源网

最近有个小项目，需要爬取页面上相应的资源数据后，保存到本地，然后将原始的HTML源文件保存下来，对HTML页面的内容进行修改将某些标签整个给替换掉。

对于这类需要对HTML进行操作的需求，最方便的莫过于 BeautifulSoup4 的库了。

样例的HTML代码如下：

<html>
<body>
    <a class=\"videoslide\" href=\"http://www.test.com/wp-content/uploads/1020/1381824922.JPG\" rel=\"external nofollow\"  rel=\"external nofollow\" >
       <img src=\"http://www.test.com/wp-content/uploads/1020/1381824922_zy_compress.JPG\" data-zy-media-id=\"zy_location_201310151613422786\"/>
    </a>
    <a href=\"http://www.test.com/wp-content/uploads/1020/第一张_1381824798.JPG\" rel=\"external nofollow\"  rel=\"external nofollow\" >
       <img data-zy-media-id=\"zy_image_201310151613169945\" src=\"http://www.test.com/wp-content/uploads/1020/第一张_1381824798_zy_compress.JPG\"/></a>
    <a href=\"http://www.test.com/wp-content/uploads/1020/第二张_1381824796.jpg\" rel=\"external nofollow\"  rel=\"external nofollow\" >
       <img data-zy-media-id=\"zy_image_201310151613163009\" src=\"http://www.test.com/wp-content/uploads/1020/第二张_1381824796_zy_compress.jpg\"/>
    </a>
    <a href=\"http://www.test.com/wp-content/uploads/1020/第三张.jpg\" rel=\"external nofollow\"  rel=\"external nofollow\" >
       <img data-zy-media-id=\"zy_image_201312311838584446\" src=\"http://www.test.com/wp-content/uploads/1020/第三张_zy_compress.jpg\"/>
    </a>
</body>
</html>

这里主要包括了 <a > 标签， <a > 标签里面嵌入了 <img > 标签，其中有 <a class="videoslide"> 的标识该标签实际是可以播放动画的。需要根据 class="videoslide" 来判断将整个 <a > 标签换成播放器的 <video > 标签，将没有 class="videoslide" 的 <a > 标签换成 <figure> 标签。

也就是将带有的 <a class="videoslide" ...><img ... /></a> 标签换成

<div class=\"video\">
<video controls width=\"100%\" poster=\"视频链接的图片地址.jpg\">
    <source src=\"视频文件的静态地址.mp4\" type=\"video/mp4\" />
    您的浏览器不支持H5视频，请使用Chrome/Firefox/Edge浏览器。
</video>
</div>

将 <a ....><img .../></a> 标签换成

<figure>
    < img src=\"图片地址_compressed.jpg\" data-zy-media-id=\"图片地址.jpg\">
    <figcaption>文字说明（如果有）</figcaption>
</figure>

这里通过BeautifulSoup4 的select()方法找到标签，通过get()方法获取标签及标签属性值，通过replaceWith来替换标签，具体代码如下：

首先安装BeautifulSoup4的库，BeautifulSoup4库依赖于lxml库，所以也需要安装lxml库。

pip install bs4
pip install lxml

具体代码实现如下：

import os
from bs4 import BeautifulSoup
htmlstr=\'<html><body>\' \\
        \'<a class=\"videoslide\" href=\"http://www.test.com/wp-content/uploads/1020/1381824922.JPG\" rel=\"external nofollow\"  rel=\"external nofollow\" >\' \\
        \'<img src=\"http://www.test.com/wp-content/uploads/1020/1381824922_zy_compress.JPG\" data-zy-media-id=\"zy_location_201310151613422786\"/></a>\' \\
        \'<a href=\"http://www.test.com/wp-content/uploads/1020/第一张_1381824798.JPG\" rel=\"external nofollow\"  rel=\"external nofollow\" >\' \\
        \'<img data-zy-media-id=\"zy_image_201310151613169945\" src=\"http://www.test.com/wp-content/uploads/1020/第一张_1381824798_zy_compress.JPG\"/></a>\' \\
        \'<a href=\"http://www.test.com/wp-content/uploads/1020/第二张_1381824796.jpg\" rel=\"external nofollow\"  rel=\"external nofollow\" >\' \\
        \'<img data-zy-media-id=\"zy_image_201310151613163009\" src=\"http://www.test.com/wp-content/uploads/1020/第二张_1381824796_zy_compress.jpg\"/></a>\' \\
        \'<a href=\"http://www.test.com/wp-content/uploads/1020/第三张.jpg\" rel=\"external nofollow\"  rel=\"external nofollow\" >\' \\
        \'<img data-zy-media-id=\"zy_image_201312311838584446\" src=\"http://www.test.com/wp-content/uploads/1020/第三张_zy_compress.jpg\"/></a>\' \\
        \'</body></html>\'

def procHtml(htmlstr):
    soup = BeautifulSoup(htmlstr, \'lxml\')
    a_tags=soup.select(\'a\')
    for a_tag in a_tags:
        a_tag_src = a_tag.get(\'href\')
        a_tag_filename = os.path.basename(a_tag_src)
        a_tag_path = os.path.join(\'src\', a_tag_filename)
        a_tag[\'href\']=a_tag_path
        next_tag=a_tag.next
        #判断是视频还是图片，如果a标签带了class=\"videoslide\" 是视频否则是图片
        if a_tag.get(\'class\') and \'videoslide\'==a_tag.get(\'class\')[0]:
            # 处理视频文件
            media_id = next_tag.get(\'data-zy-media-id\')
            if media_id:
                media_url = \'http://www.test.com/travel/show_media/\' + str(media_id)+\'.mp4\'
                media_filename = os.path.basename(media_url)
                media_path = os.path.join(\'src\', media_filename)
                # 将div.video标签替换a标签
                video_html = \'<div class=\\\"video\\\"><video controls width = \\\"100%\\\" poster = \\\"\' + a_tag_path + \'\\\" ><source src = \\\"\' + media_path + \'\\\" type = \\\"video/mp4\\\" /> 您的浏览器不支持H5视频，请使用Chrome / Firefox / Edge浏览器。 </video></div>\'
                video_soup = BeautifulSoup(video_html, \'lxml\')
                a_tag.replaceWith(video_soup.div)
        else:
            #获取图片信息
            if \'img\'==next_tag.name:
                img_src=next_tag.get(\'src\')
                # 判断是否路径是否为本地资源 data:image和file:
                if img_src.find(\'data:image\') == -1 and img_src.find(\'file:\') == -1:
                    img_filename = os.path.basename(img_src)
                    img_path = os.path.join(\'src\', img_filename)
                    # 将<figure><img>标签替换a标签
                    figcaption=\'\'
                    figure_html=\'<figure><img src=\\\"\'+img_path+\'\\\" data-zy-media-id=\\\"\'+a_tag_path+\'\\\"><figcaption>\'+figcaption+\'</figcaption></figure>\'
                    figure_soup = BeautifulSoup(figure_html, \'lxml\')
                    a_tag.replaceWith(figure_soup.figure)
    html_content = soup.contents[0]
    return html_content

if __name__ == \'__main__\':
    pro_html_str=procHtml(htmlstr)
    print(pro_html_str)

结果:

<html>
<body>
<div class=\"video\">
<video controls=\"\" poster=\"src\\1381824922.JPG\" width=\"100%\">
<source src=\"src\\zy_location_201310151613422786.mp4\" type=\"video/mp4\"/> 您的浏览器不支持H5视频，请使用Chrome / Firefox / Edge浏览器。 
</video>
</div>
<figure>
<img data-zy-media-id=\"src\\第一张_1381824798.JPG\" src=\"src\\第一张_1381824798_zy_compress.JPG\"/>
<figcaption></figcaption>
</figure>
<figure>
<img data-zy-media-id=\"src\\第二张_1381824796.jpg\" src=\"src\\第二张_1381824796_zy_compress.jpg\"/>
<figcaption></figcaption></figure>
<figure>
<img data-zy-media-id=\"src\\第三张.jpg\" src=\"src\\第三张_zy_compress.jpg\"/>
<figcaption></figcaption>
</figure>
</body>
</html>

总结

版权声明 1 本网站名称：偶像资源网
2 本站永久网址：https://www.ox520.com
3 本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长 QQ593098775进行删除处理。
4 本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5 本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6 本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END

Python使用BeautifulSoup4修改网页内容的实战记录

请登录后发表评论