python 开心网和豆瓣日记爬取的小爬虫

目录

项目地址:开心网日记爬取
使用
代码豆瓣日记爬取
使用
代码Roadmap

项目地址:

https://github.com/aturret/python-crawler-exercise

用到了BeautifulSoup4,请先安装。

pip install beautifulsoup4

开心网日记爬取

kaixin001.py

使用

登录开心网,浏览器F12看http请求的header,获取自己的cookie。

填写cookie,要爬的日记的url,要爬的总次数。走你。

之后会生成HTML文件,格式是<:title>-<YYYYMMDDHHMMSS>

代码

# -*- coding: utf-8 -*-
from urllib.request import urlopen
import urllib.request
import urllib.parse #为了获取HTTP response
from bs4 import BeautifulSoup #BS4
import string # 为了去掉空白字符
import time # 防止被杀cookie
import unicodedata # 字符修正
# 在这里放第一个链接
urlx = \'链接\' #写你想爬的文

def request(url):
    global urlx #引用外面的链接作为全局变量,后面还会取下一个进行循环的


# 使用urllib库提交cookie获取http响应
    headers = {
    \'GET https\':url,
    \'Host\':\' www.kaixin001.com\',
    \'Connection\':\' keep-alive\',
    \'Upgrade-Insecure-Requests\':\' 1\',
    \'User-Agent\':\' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36\',
    \'Accept\':\' application/json, text/javascript, */*; q=0.01\',
    \'Accept-Language\':\' zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7\',
    \'Cookie\':\' \', #改成自己的cookie,自己浏览器打开网站F12调试,自己找http请求的header
    }
    request = urllib.request.Request(url=url,headers=headers)
    response = urllib.request.urlopen(request)
    contents = response.read()

# 使用BS4获得所有HTMLtag
    bsObj = BeautifulSoup(contents,\"html.parser\")

# 使用BS4的find函数得到想要的东西:标题、发表时间和博客正文
    title = bsObj.find(\"b\", attrs={\"class\":\"f14\"})
    titleT = bsObj.find(\"b\", attrs={\"class\":\"f14\"}).get_text() #开心网日记的标题是一个b标签,class属性值是f14
    date = bsObj.find(\"span\", attrs={\"class\":\"c6\"})
    dateT = bsObj.find(\"span\", attrs={\"class\":\"c6\"}).get_text() #开心网日记的发表时间是一个span标签,class属性值是c6
    text = bsObj.find(\"div\", attrs={\"class\":\"textCont\"})
    textT = bsObj.find(\"div\", attrs={\"class\":\"textCont\"}).get_text() #开心网日记的正文是一个div标签,class属性值是textCont

  

# 测试输出
    print(title)
    print(dateT)
    # print(text)
    
    
    

# 生成HTML文件。这里直接用file.open()和file.write()了,也可以用jinja2之类的框架生成。
    remove = string.whitespace+string.punctuation
    table = str.maketrans(\':\',\':\',remove)

    fileTitle=str(titleT).replace(\':\',\':\').replace(\'\'\'\"\'\'\',\'\'\'“\'\'\')+\'-\'+str(dateT).translate(table).replace(\'发表\',\'\')+\'.html\'

    print(fileTitle) #测试输出

    f = open(fileTitle,\'w\',encoding=\"utf-8\") #注意用utf-8编码写入,不然会因为一些旧博文采用的gbk编码不兼容而出问题。

# 写入message
    message = \"\"\"
    <html>
    <head></head>
    <body>
    <h1>%s</h1>
    <b>%s</b>
    <br></br>
    %s
    </body>
    </html>\"\"\"%(title.get_text(),date.get_text(),unicodedata.normalize(\'NFD\',text.prettify()))
    f.write(message)
    f.close()
    # webbrowser.open(fileTitle,new = 1)
   

# 定位下一篇博文的URL

    nextUrl=bsObj.find(\"a\",text=\"下一篇 >\").attrs[\"href\"] #下一篇是一个a标签,使用tag对象的attrs属性取href属性的值。开心网的日记系统里,如果到了最后一篇日记,下一篇的链接内容是第一篇日记,所以不用担心从哪篇日记开始爬。
    # print(nextUrl)
    urlx=\"http://www.kaixin001.com\"+nextUrl
    print(urlx)


# 主循环,给爷爬
num=328 #设定要爬多少次。其实也可以写个数组检测重复然后中止的啦,但我懒得弄了。
for a in range(num):
    request(urlx)    
    print(\'We get \'+str(a+1)+\' in \'+str(num))
    time.sleep(1) # 慢点,慢点。测试过程中出现了没有设置限制爬一半cookie失效了的情况,可能是太快了被搞了。

豆瓣日记爬取

douban.py

使用

登录豆瓣,浏览器F12看http请求的header,获取自己的cookie。

填写变量COOKIE,要爬的日记页的url。走你。

之后会生成HTML文件,格式是<:title>-<YYYYMMDDHHMMSS>

代码

# -*- coding: utf-8 -*-
from urllib.request import urlopen
import urllib.request
import urllib.parse #为了获取HTTP response
from bs4 import BeautifulSoup #BS4
import string # 为了去掉空白字符
import unicodedata # 字符修正
import re
# 在这里放链接
url = \'\' #写你想爬的人 https://www.douban.com/people/xxx/notes 这样
COOKIE = \'\'

def request(urlx):
    global url #引用外面的链接作为全局变量,后面还会取下一个进行循环的
    global boolean
    global COOKIE
# 使用urllib库提交cookie获取http响应
    headers = {
    \'GET https\':urlx,
    \'Host\':\' www.douban.com\',
    \'Connection\':\' keep-alive\',
    \'Upgrade-Insecure-Requests\':\' 1\',
    \'User-Agent\':\' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36\',
    \'Accept\':\' application/json, text/javascript, */*; q=0.01\',
    \'Accept-Language\':\' zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7\',
    \'Cookie\':COOKIE, #改成自己的cookie,自己浏览器打开网站F12调试,自己找http请求的header
    }
    request = urllib.request.Request(url=urlx,headers=headers)
    response = urllib.request.urlopen(request)
    contents = response.read()

# 使用BS4获得所有HTMLtag
    bsObj = BeautifulSoup(contents,\"html.parser\")

# 使用BS4的find函数获取当前页面的所有日记链接
    article = bsObj.find(\"div\", attrs={\"class\":\"article\"})
    titleSet = article.findAll(\"h3\")
    # print(titleSet)
    for title in titleSet:
        titleText = title.findAll(\"a\",attrs={\"class\":\"j a_unfolder_n\"})
        for link in titleText:
            noteUrl = str(link.attrs[\"href\"])
            print(noteUrl)
            requestSinglePage(noteUrl)
    next = bsObj.find(\"a\",text=\"后页>\")
    if next==None:
        print(\"结束了\")
        boolean=1
    else:
        url = str(next.attrs[\"href\"]).replace(\"&type=note\",\"\")
        print(url)

def requestSinglePage(urly):
    global COOKIE
    headers = {
        \'GET https\':urly,
        \'Host\':\' www.douban.com\',
        \'Connection\':\' keep-alive\',
        \'Upgrade-Insecure-Requests\':\' 1\',
        \'User-Agent\':\' Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36\',
        \'Accept\':\' application/json, text/javascript, */*; q=0.01\',
        \'Accept-Language\':\' zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7\',
        \'Cookie\':COOKIE, #改成自己的cookie,自己浏览器打开网站F12调试,自己找http请求的header
    }
    request = urllib.request.Request(url=urly,headers=headers)
    response = urllib.request.urlopen(request)
    contents = response.read()
    # 使用BS4获得所有HTMLtag
    bsObj = BeautifulSoup(contents,\"html.parser\")

# 使用BS4的find函数得到想要的东西:标题、发表时间和博客正文

    title = bsObj.find(\"h1\").get_text()
    date = bsObj.find(\"span\", attrs={\"class\":\"pub-date\"})
    dateT = bsObj.find(\"span\", attrs={\"class\":\"pub-date\"}).get_text()
    text = bsObj.find(\"div\", attrs={\"id\":\"link-report\"})
    # textT = bsObj.find(\"div\", attrs={\"class\":\"textCont\"}).get_text()

# 测试输出
    print(title)
    print(dateT)

    # 生成HTML文件。这里直接用file.open()和file.write()了,也可以用jinja2之类的框架生成。
    remove = string.whitespace+string.punctuation # 去掉日期的标点符号
    table = str.maketrans(\':\',\':\',remove)

    fileTitle=str(title)+\'-\'+str(dateT).translate(table)+\'.html\'

    print(fileTitle) #测试输出

    f = open(fileTitle,\'w\',encoding=\"utf-8\") #注意用utf-8编码写入,不然会因为一些旧博文采用的gbk编码不兼容而出问题。

    # 写入message
    message = \"\"\"
    <html>
    <head></head>
    <body>
    <h1>%s</h1>
    <b>%s</b>
    <br></br>
    %s
    </body>
    </html>\"\"\"%(title,dateT,unicodedata.normalize(\'NFD\',text.prettify()))
    f.write(message)
    f.close()

# 主循环,给爷爬

boolean=0
while(boolean==0):
    a=1
    request(url)
    print(\'We finished page \'+str(a)+\' .\')
    a+=1

Roadmap

豆瓣四月份时候还有bug,手机端可以看到全部日记,半年隐藏无效。最近修好了。

不过现在的隐藏依然没有针对到具体的日记,或许可以想办法通过其他手段爬下来。

以上就是python 开心网日记爬取的示例步骤的详细内容,更多关于python 开心网日记爬取的资料请关注免费资源网其它相关文章!

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容