python爬虫爬取指定内容的解决方法-偶像资源网

解决办法：

可以使用for In 语句来判断
如果我们所指定的内容在这段语句中我们就把这段内容爬取下来，反之就丢弃

实列代码如下：（以我们学校为例）

import urllib.request
from lxml import etree
def creat_url(page):
    if(page==1):
        url=\'https://www.qjnu.edu.cn/channels/9260.html\'
    else:
        url=\'https://www.qjnu.edu.cn/channels/9260_\'+str(page)+\'.html\'
    headers={
        \'User-Agent\':\' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.64 Safari/537.36 Edg/101.0.1210.53\'
    }
    request = urllib.request.Request(url=url,headers=headers)
    return request
def creat_respons(request):
    respons = urllib.request.urlopen(request)
    content = respons.read().decode(\'utf-8\')
    return content
def down_2(url):
    url = url
    headers = {
        \'User-Agent\': \' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.60 Safari/537.36 Edg/100.0.1185.29\'
    }
    request = urllib.request.Request(url=url, headers=headers)
    response = urllib.request.urlopen(request)
    content2 = response.read().decode(\'utf-8\')
    tree2 = etree.HTML(content2)
    return tree2
def down_loads(content):
    tree = etree.HTML(content)
    name_list = tree.xpath(\'//div[@class=\"media\"]/h4/a/text()\')
    url_list = tree.xpath(\'//div[@class=\"media\"]/h4/a/@href\')
    for i in range(len(name_list)):
        if key in name_list[i]:
            with open(\'学校党员主题网址.txt\', \'a\', encoding=\'UTF-8\') as fp:
                fp.write(url_list[i]+\'\\n\')
            url = url_list[i]
            tree = down_2(url)
            tex_list = tree.xpath(\'//div[@class=\"field-item even\"]//p/span/text()\')
            name = name_list[i]
            with open(name + \'.txt\', \'w\', encoding=\'UTF-8\') as fp:
                fp.write(str(tex_list))
if __name__ == \'__main__\':
    all_page=int(input(\'请输入要爬取页码：\'))
    key = str(input(\'请输入关键词：\'))
    s_page=1
    for page in range(s_page,all_page+1):
        request=creat_url(page)
        content=creat_respons(request)
        down_loads(content)

此段代码的可执行性没有问题，逻辑上也能够串通
但是代码冗余较多，看起来有点复杂，现在正在研究简化版的代码！

版权声明 1 本网站名称：偶像资源网
2 本站永久网址：https://www.ox520.com
3 本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长 QQ593098775进行删除处理。
4 本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5 本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6 本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END

python爬虫爬取指定内容的解决方法

目录

解决办法：

实列代码如下：（以我们学校为例）

请登录后发表评论