首页软件开发代码讲解 Python 正文

我要投稿

python Scrapy框架原理解析

自学编程网 Python

2021-01-08 0 798

Python 爬虫包含两个重要的部分：正则表达式和Scrapy框架的运用，正则表达式对于所有语言都是通用的，网络上可以找到各种资源。

如下是手绘Scrapy框架原理图，帮助理解

python Scrapy框架原理解析

如下是一段运用Scrapy创建的spider：使用了内置的crawl模板，以利用Scrapy库的CrawlSpider。相对于简单的爬取爬虫来说，Scrapy的CrawlSpider拥有一些网络爬取时可用的特殊属性和方法：

$ scrapy genspider country_or_district example.python-scrapying.com–template=crawl

运行genspider命令后，下面的代码将会在example/spiders/country_or_district.py中自动生成。

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from example.items import CountryOrDistrictItem


class CountryOrDistrictSpider(CrawlSpider):
  name = \'country_or_district\'
  allowed_domains = [\'example.python-scraping.com\']
  start_urls = [\'http://example.python-scraping.com/\']

  rules = (
    Rule(LinkExtractor(allow=r\'/index/\', deny=r\'/user/\'),
       follow=True),
    Rule(LinkExtractor(allow=r\'/view/\', deny=r\'/user/\'),
       callback=\'parse_item\'),
  )

  def parse_item(self, response):
    item = CountryOrDistrictItem()
    name_css = \'tr#places_country_or_district__row td.w2p_fw::text\'
    item[\'name\'] = response.css(name_css).extract()
    pop_xpath = \'//tr[@id=\"places_population__row\"]/td[@class=\"w2p_fw\"]/text()\'
    item[\'population\'] = response.xpath(pop_xpath).extract()
    return item

爬虫类包括的属性：

name: 识别爬虫的字符串。
allowed_domains: 可以爬取的域名列表。如果没有设置该属性，则表示可以爬取任何域名。
start_urls: 爬虫起始URL列表。
rules: 该属性为一个通过正则表达式定义的Rule对象元组，用于告知爬虫需要跟踪哪些链接以及哪些链接包含抓取的有用内容。

以上就是python Scrapy框架原理解析的详细内容，更多关于Scrapy框架原理的资料请关注自学编程网其它相关文章！

收藏 (0) 点赞 (0)

遇见资源网 Python python Scrapy框架原理解析 http://www.ox520.com/27816.html

Python scrapy框架 Scrapy框架原理

自学编程网

上一篇： python中Mako库实例用法

下一篇：用Python自动清理电脑内重复文件,只要10行代码(自动脚本)

常见问题

相关文章

python实现TCP文件接收发送

python实现TCP文件接收发送

Python

自学编程网

2年前 749

python利用socket实现udp文件传输功能

python利用socket实现udp文件传输功能

Python

自学编程网

2年前 360

Python实现批量压缩文件/文件夹zipfile的使用

Python实现批量压缩文件/文件夹zipfile的使用

Python

自学编程网

2年前 574

Python使用turtle模块绘制爱心图案

Python使用turtle模块绘制爱心图案

Python

自学编程网

2年前 420

猜你喜欢

python实现TCP文件接收发送 2023-01-31
python利用socket实现udp文件传输功能 2023-01-31
Python实现批量压缩文件/文件夹zipfile的使用 2023-01-31
Python使用turtle模块绘制爱心图案 2023-01-13
浅谈Python的字典键名可以是哪些类型 2023-01-13
Python日期时间模块arrow的具体使用 2023-01-13
python利用Appium实现自动控制移动设备并提取数据功能 2023-01-13
python用folium绘制地图并设置弹窗效果 2023-01-13
Python 面向对象编程的三大特性之继承 2023-01-13
利用Python快速绘制海报地图 2023-01-13

发表评论

暂无评论

官方客服团队

为您解决烦忧 - 24小时在线专业服务

联系官方团队在线提交工单

自学编程网

QQ 微信

微博

9875
文章
5,757,284
浏览
0
收藏
0
评论
30812
标签
19
分类

进主页

TA的动态

2023-03-16 一篇文章带你了解如何正确使用java线程池
2023-03-16 JAVA jvm系列--java内存区域
2023-03-16 JAVA代码块你了解吗
2023-03-16 超详细讲解Java线程池
2023-03-16 java Long类型转为String类型的两种方式及区别说明

总裁主题

分享最新WordPress教程共同学习，共同进步，共同成长！

热门文章

热门评论

如遇问题，请联系客服
联系客服请注明来意高端主题开发
微信公众号

总裁主题·高端主题
返回顶部