详解Python爬虫爬取博客园问题列表所有的问题

一.准备工作

首先，本文使用的技术为 python+requests+bs4，没有了解过可以先去了解一下。
我们的需求是将博客园问题列表中的所有问题的题目爬取下来。

二.分析：

首先博客园问题列表页面右键点击检查
通过Element查找问题所对应的属性或标签

可以发现在div class =\”one_entity\”中存在页面中分别对应每一个问题
接着div class =\”news_item\”中h2标签下是我们想要拿到的数据

三.代码实现

首先导入requests和BeautifulSoup

import requests
from bs4 import BeautifulSoup

由于很多网站定义了反爬策略，所以进行伪装一下

headers = {
    \'User-Agent\': \'Mozilla / 5.0(WindowsNT10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 87.0.4280.141Safari / 537.36\'
  }

在这里User-Agent只是其中的一种方式，而且大家的User-Agent可能不同。

爬取数据main代码

url = \'https://q.cnblogs.com/list/unsolved?\'
  fp = open(\'blog\', \'w\', encoding=\'utf-8\')
  for page in range(1,26):
    page = str(page)
    param = {
      \'page\':page
    }
    page_text = requests.get(url=url,params=param,headers=headers).text
    page_soup = BeautifulSoup(page_text,\'lxml\')
    text_list = page_soup.select(\'.one_entity > .news_item > h2\')
    for h2 in text_list:
      text = h2.a.string
      fp.write(text+\'\\n\')
    print(\'第\'+page+\'页爬取成功！\')

注意一下这里，由于我们需要的是多张页面的数据，所以在发送请求的url中我们就要针对不同的页面发送请求，https://q.cnblogs.com/list/unsolved?page=我们要做的是在发送请求的url时候，根据参数来填充页数page，
代码实现：

  url = \'https://q.cnblogs.com/list/unsolved?\'
  for page in range(1,26):
    page = str(page)
    param = {
      \'page\':page
    }
  page_text = requests.get(url=url,params=param,headers=headers).text

将所有的h2数组拿到，进行遍历，通过取出h2中a标签中的文本，并将每取出来的文本写入到文件中，由于要遍历多次，所以保存文件在上面的代码中。

text_list = page_soup.select(\'.one_entity > .news_item > h2\')
    for h2 in text_list:
      text = h2.a.string
      fp.write(text+\'\\n\')

完整代码如下:

import requests
from bs4 import BeautifulSoup
if __name__ == \'__main__\':
  headers = {
    \'User-Agent\': \'Mozilla / 5.0(WindowsNT10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 87.0.4280.141Safari / 537.36\'
  }
  url = \'https://q.cnblogs.com/list/unsolved?\'
  fp = open(\'blog\', \'w\', encoding=\'utf-8\')
  for page in range(1,26):
    page = str(page)
    param = {
      \'page\':page
    }
    page_text = requests.get(url=url,params=param,headers=headers).text
    page_soup = BeautifulSoup(page_text,\'lxml\')
    text_list = page_soup.select(\'.one_entity > .news_item > h2\')
    for h2 in text_list:
      text = h2.a.string
      fp.write(text+\'\\n\')
    print(\'第\'+page+\'页爬取成功！\')