scrapy(scrapy框架的工作流程)

IT技术4年前发布投稿用户

Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫等，最新版本又提供了web2.0爬虫的支持。

scrapy框架的工作流程

学习方针：
了解scrapy的概念
了解scrapy结构的效果
把握scrapy结构的运转流程
把握scrapy中每个模块的效果
1.scrapy的概念
Scrapy是一个Python编写的开源网络爬虫结构。它是一个被设计用于爬取网络数据、提取结构性数据的结构。
Scrapy使用了Twisted[‘tw?st?d]异步网络结构，能够加快我们的下载速度。
Scrapy文档地址：http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html
2.scrapy结构的效果
少量的代码，就能够快速的抓取
3.scrapy的作业流程
3.1回顾之前的爬虫流程
3.2上面的流程能够改写为
3.3scrapy的流程
其流程能够描述如下：
爬虫中开始的url构形成request目标–>爬虫中间件–>引擎–>调度器
调度器把request–>引擎–>下载中间件—>下载器
下载器发送恳求，获取response呼应—->下载中间件—->引擎—>爬虫中间件—>爬虫
爬虫提取url地址，组装成request目标—->爬虫中间件—>引擎—>调度器，重复步骤2
爬虫提取数据—>引擎—>管道处理和保存数据
留意：
图中中文是为了便利理解后加上去的
图中绿色线条的表明数据的传递
留意图中中间件的方位，决定了其效果
留意其间引擎的方位，所有的模块之前相互独立，只和引擎进行交互
3.4scrapy的三个内置目标
request恳求目标：由urlmethodpost_dataheaders等构成
response呼应目标：由urlbodystatusheaders等构成
item数据目标：本质是个字典
3.5scrapy中每个模块的详细效果
留意：
爬虫中间件和下载中间件仅仅运转逻辑的方位不同，效果是重复的：如替换UA等
小结
scrapy的概念：Scrapy是一个为了爬取网站数据，提取结构性数据而编写的使用结构
scrapy结构的运转流程以及数据传递进程：
爬虫中开始的url构形成request目标–>爬虫中间件–>引擎–>调度器
调度器把request–>引擎–>下载中间件—>下载器
下载器发送恳求，获取response呼应—->下载中间件—->引擎—>爬虫中间件—>爬虫
爬虫提取url地址，组装成request目标—->爬虫中间件—>引擎—>调度器，重复步骤2
爬虫提取数据—>引擎—>管道处理和保存数据
scrapy结构的效果：经过少量代码完成快速抓取
把握scrapy中每个模块的效果：引擎(engine)：负责数据和信号在不腰痛模块间的传递调度器(scheduler)：完成一个队列，寄存引擎发过来的request恳求目标下载器(downloader)：发送引擎发过来的request恳求，获取呼应，并将呼应交给引擎爬虫(spider)：处理引擎发过来的response，提取数据，提取url，并交给引擎管道(pipeline)：处理引擎传递过来的数据，比方存储下载中间件(downloadermiddleware)：能够自定义的下载扩展，比方设置署理ip爬虫中间件(spidermiddleware)：能够自定义request恳求和进行response过滤，与下载中间件效果重复

IT技术 # scrapy # scrapy框架

文章版权归作者所有，未经允许请勿转载。

版权声明：
1、IT大王遵守相关法律法规，由于本站资源全部来源于网络程序/投稿，故资源量太大无法一一准确核实资源侵权的真实性；
2、出于传递信息之目的，故IT大王可能会误刊发损害或影响您的合法权益，请您积极与我们联系处理(所有内容不代表本站观点与立场)；
3、因时间、精力有限，我们无法一一核实每一条消息的真实性，但我们会在发布之前尽最大努力来核实这些信息；
4、无论出于何种目的要求本站删除内容，您均需要提供根据国家版权局发布的示范格式
《要求删除或断开链接侵权网络内容的通知》：https://itdw.cn/ziliao/sfgs.pdf，
国家知识产权局《要求删除或断开链接侵权网络内容的通知》填写说明： http://www.ncac.gov.cn/chinacopyright/contents/12227/342400.shtml
未按照国家知识产权局格式通知一律不予处理；请按照此通知格式填写发至本站的邮箱 wl6@163.com

没有相关内容!

scrapy(scrapy框架的工作流程)

scrapy框架的工作流程

linux查看进程(命令ps -ef详解)

公司网站建设(需要多少钱)

相关文章