首页软件开发代码讲解 Python 正文

我要投稿

python 爬取吉首大学网站成绩单

自学编程网 Python

2021-07-31 0 635

目录

项目地址：
环境
配置及使用
结果展示
完整代码

项目地址：

https://github.com/chen0495/pythonCrawlerForJSU

环境

python 3.5即以上
request、BeautifulSoup、numpy、pandas.
安装BeautifulSoup使用命令pip install BeautifulSoup4

配置及使用

登陆学校成绩单查询网站,修改cookie.

python 爬取吉首大学网站成绩单

按F12后按Ctrl+R刷新一下,获取cookie的方法见下图:

python 爬取吉首大学网站成绩单

修改爬虫url为自己的成绩单网址.

python 爬取吉首大学网站成绩单

运行src/main.py文件即可在/result下得到csv文件.

结果展示

python 爬取吉首大学网站成绩单

完整代码

# -*- coding: utf-8 -*-
# @Time    : 5/29/2021 2:13 PM
# @Author  : Chen0495
# @Email   : 1346565673@qq.com|chenweiin612@gmail.com
# @File    : main.py
# @Software: PyCharm

import requests as rq
from bs4 import BeautifulSoup as BS
import numpy as np
import pandas as pd

rq.adapters.DEFAULT_RETRIES = 5
s = rq.session()
s.keep_alive = False # 关闭多余连接

header = { # 请更改cookie
    \'user-agent\' : \'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4501.0 Safari/537.36 Edg/92.0.891.1\',
    \'cookie\' : \'wengine_vpn_ticketwebvpn_jsu_edu_cn=xxxxxxxxxx; show_vpn=1; refresh=1\'
}

# 请更改url
r = rq.get(\'https://webvpn.jsu.edu.cn/https/xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx/jsxsd/kscj/cjcx_list\', headers = header, verify=False)

soup = BS(r.text,\'html.parser\')

head = []
for th in soup.find_all(\"th\"):
    head.append(th.text)
while \'\' in head:
    head.remove(\'\')
head.remove(\'序号\')
context = np.array(head)


x = []
flag = 0
for td in soup.find_all(\"td\"):
    if flag!=0 and flag%11!=1:
        x.append(td.text)
    if flag%11==0 and flag!=0:
        context = np.row_stack((context,np.array(x)))
        x.clear()
    flag+=1

context = np.delete(context,0,axis=0)
data = pd.DataFrame(context,columns=head)
print(data)

# 生成文件,亲更改文件名
data.to_csv(\'../result/result.csv\',encoding=\'utf-8-sig\')

以上就是python 爬取吉首大学成绩单的详细内容，更多关于python 爬取成绩单的资料请关注自学编程网其它相关文章！

收藏 (0) 点赞 (0)

遇见资源网 Python python 爬取吉首大学网站成绩单 http://www.ox520.com/29004.html

Python 爬取吉首大学网站爬取网站成绩单

自学编程网

上一篇：浅谈python中常用的excel模块库

下一篇：聊聊Python中关于a=[[]]*3的反思

常见问题

相关文章

python实现TCP文件接收发送

python实现TCP文件接收发送

Python

自学编程网

2年前 723

python利用socket实现udp文件传输功能

python利用socket实现udp文件传输功能

Python

自学编程网

2年前 332

Python实现批量压缩文件/文件夹zipfile的使用

Python实现批量压缩文件/文件夹zipfile的使用

Python

自学编程网

2年前 547

浅谈Python的字典键名可以是哪些类型

浅谈Python的字典键名可以是哪些类型

Python

自学编程网

2年前 288

猜你喜欢

python实现TCP文件接收发送 2023-01-31
python利用socket实现udp文件传输功能 2023-01-31
Python实现批量压缩文件/文件夹zipfile的使用 2023-01-31
浅谈Python的字典键名可以是哪些类型 2023-01-13
Python日期时间模块arrow的具体使用 2023-01-13
python利用Appium实现自动控制移动设备并提取数据功能 2023-01-13
python用folium绘制地图并设置弹窗效果 2023-01-13
Python 面向对象编程的三大特性之继承 2023-01-13
利用Python快速绘制海报地图 2023-01-13
Python使用turtle模块绘制爱心图案 2023-01-13

发表评论

暂无评论

官方客服团队

为您解决烦忧 - 24小时在线专业服务

联系官方团队在线提交工单

自学编程网

QQ 微信

微博

9875
文章
5,573,505
浏览
0
收藏
0
评论
23133
标签
19
分类

进主页

TA的动态

2023-03-16 一篇文章带你了解如何正确使用java线程池
2023-03-16 JAVA jvm系列--java内存区域
2023-03-16 JAVA代码块你了解吗
2023-03-16 超详细讲解Java线程池
2023-03-16 java Long类型转为String类型的两种方式及区别说明

总裁主题

分享最新WordPress教程共同学习，共同进步，共同成长！

热门文章

热门评论

如遇问题，请联系客服
联系客服请注明来意高端主题开发
微信公众号

总裁主题·高端主题
返回顶部