基于Python实现微博抓取GUI程序-偶像资源网

前言

在前面的分享中，我们制作了一个天眼查 GUI 程序，今天我们在这个的基础上，继续开发新的功能，微博抓取工具，先来看下最终的效果

整体的界面还是继承自上次的天眼查界面，我们直接来看相关功能

微博功能布局

我们整体的界面布局就是左侧可以选择不同功能，然后右侧的界面会对应改变

创建微博 Widget

对于右侧界面的切换，我们可以为不同的功能创建不同的 Widget，当点击左侧不同功能按钮后，对应切换 Widget 即可

我们新建一个 weibo 相关的函数，主要用来界面布局

def weiboWidget(self):
    self.left_button_widget_3 = QtWidgets.QWidget()
    self.weiboWebEngine = QWebEngineView()
    self.weiboWebEngine2 = QWebEngineView()
    self.progressWidget = QtWidgets.QWidget()
    self.ciyunWidget = QtWidgets.QWidget()

我们还看到整体界面有一个词云，该词云是通过 matplotlib 渲染的，所以还需要创建 matplotlib 布局

# matplotlib 绘图区域
self.figure = plt.figure(figsize=(7, 2))
self.canvas = FigureCanvasQTAgg(self.figure)  # 绘图区域放到图层canvas之中
self.gridLayout_weibo.addWidget(self.canvas, 5, 0, 1, 9)  # 图层放到pyqt布局之中

创建微博查询

接下来我们创建一个微博查询函数，同时因为我们这里需要实时更新抓取进度条，所以使用了多线程的方式

def doWeiboQuery(self):
    weibo_link = self.lineEdit_weibo_link.text()
    weibo_name = self.lineEdit_weibo_name.text()
    weibo_page = self.weibo_comboBox.currentText()
    if not weibo_link or not weibo_name:
        QMessageBox.information(self, \"Error\", \"微博链接或者用户名称不能为空\",
                                QMessageBox.Yes)
        return
    self.weiboWebEngine.load(QUrl(weibo_link))
    self.qth = WeiBoQueryThread()
    self.qth.update_data.connect(self.weiboPgbUpdate)
    self.qth.draw_ciyun.connect(self.drawCiyun)
    self.qth.weibo_page = weibo_page
    self.qth.weibo_link = weibo_link
    self.qth.weibo_name = weibo_name
    self.qth.start()

而主线程与子线程之间的通信，是使用信号槽的形式

def weiboPgbUpdate(self, data):
    self.pgb.setValue(data)

def drawCiyun(self):
    self.canvas.draw()
    self.toolbar = NavigationToolbar2QT(self.canvas, self)
    self.gridLayout_weibo.addWidget(self.toolbar, 8, 0, 1, 9)

接下来就是创建子进程函数，函数主体是爬取微博的代码

\"\"\"子进程微博查询\"\"\"
class WeiBoQueryThread(QThread):
    # 创建一个信号，触发时传递当前时间给槽函数
    update_data = pyqtSignal(int)
    draw_ciyun = pyqtSignal()
    weibo_name = None
    weibo_link = None
    weibo_page = None
    total_pv = 0
    timestamp = str(int(time.time()))
    def run(self):
        # 微博爬虫
        try:
            file_name = self.weibo_name + \"_\" + self.timestamp + \'comment.csv\'
            my_weibo = weibo_interface.Weibo(self.weibo_name)
            uid, blog_info = my_weibo.weibo_info(self.weibo_link)
            pv_max = int(self.weibo_page)
            pre_pv = 100 // pv_max
            for i in range(int(self.weibo_page)):
                my_weibo.weibo_comment(uid, blog_info, str(i), file_name)
                self.total_pv += pre_pv
                self.update_data.emit(self.total_pv)
            print(\"所有微博评论爬取完成！\")
            print(\"开始生成词云\")
            font, img_array, STOPWORDS, words = ciyun(file_name)
            wc = WordCloud(width=2000, height=1800, background_color=\'white\', font_path=font, mask=img_array,
                           stopwords=STOPWORDS, contour_width=3, contour_color=\'steelblue\').generate(words)
            plt.imshow(wc)
            plt.axis(\"off\")
            self.draw_ciyun.emit()
            print(\"生成词云完成\")
        except Exception as e:
            print(e)

而对于微博的具体爬取方法，这里就不再展开说明了，我是把所有微博爬虫的代码都封装好了，这里直接调用暴露的接口即可

词云制作

对于词云的制作，我们还是先通过 jieba 进行分词处理，然后使用 wordcloud 库生成词云即可

# 词云相关
def ciyun(file, without_english=True):
    font = r\'C:\\Windows\\Fonts\\FZSTK.TTF\'
    STOPWORDS = {\"回复\", \"@\", \"我\", \"她\", \"你\", \"他\", \"了\", \"的\", \"吧\", \"吗\", \"在\", \"啊\", \"不\", \"也\", \"还\", \"是\",
                 \"说\", \"都\", \"就\", \"没\", \"做\", \"人\", \"赵薇\", \"被\", \"不是\", \"现在\", \"什么\", \"这\", \"呢\", \"知道\", \"邓\"}
    df = pd.read_csv(file, usecols=[0])
    df_copy = df.copy()
    df_copy[\'comment\'] = df_copy[\'comment\'].apply(lambda x: str(x).split())  # 去掉空格
    df_list = df_copy.values.tolist()
    comment = jieba.cut(str(df_list), cut_all=False)
    words = \' \'.join(comment)
    if without_english:
        words = re.sub(\'[a-zA-Z]\', \'\', words)
    img = Image.open(\'ciyun.png\')
    img_array = np.array(img)
    return font, img_array, STOPWORDS, words

由于很多评论当中会存在链接信息，导致制作的词云有很多高权重的英文字符，所有这里也通过正则进行了去英文字符处理

至此，我们这个微博查询功能就完成了~

结果展示

下面我们来看看最终的效果吧

版权声明 1 本网站名称：偶像资源网
2 本站永久网址：https://www.ox520.com
3 本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长 QQ593098775进行删除处理。
4 本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5 本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6 本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END

基于Python实现微博抓取GUI程序

目录

前言

微博功能布局

创建微博 Widget

创建微博查询

词云制作

结果展示

请登录后发表评论