Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。
scrapy框架的工作流程
学习方针:
了解scrapy的概念
了解scrapy结构的效果
把握scrapy结构的运转流程
把握scrapy中每个模块的效果
1.scrapy的概念
Scrapy是一个Python编写的开源网络爬虫结构。它是一个被设计用于爬取网络数据、提取结构性数据的结构。
Scrapy使用了Twisted[‘tw?st?d]异步网络结构,能够加快我们的下载速度。
Scrapy文档地址:http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html
2.scrapy结构的效果
少量的代码,就能够快速的抓取
3.scrapy的作业流程
3.1回顾之前的爬虫流程
3.2上面的流程能够改写为
3.3scrapy的流程
其流程能够描述如下:
爬虫中开始的url构形成request目标–>爬虫中间件–>引擎–>调度器
调度器把request–>引擎–>下载中间件—>下载器
下载器发送恳求,获取response呼应—->下载中间件—->引擎—>爬虫中间件—>爬虫
爬虫提取url地址,组装成request目标—->爬虫中间件—>引擎—>调度器,重复步骤2
爬虫提取数据—>引擎—>管道处理和保存数据
留意:
图中中文是为了便利理解后加上去的
图中绿色线条的表明数据的传递
留意图中中间件的方位,决定了其效果
留意其间引擎的方位,所有的模块之前相互独立,只和引擎进行交互
3.4scrapy的三个内置目标
request恳求目标:由urlmethodpost_dataheaders等构成
response呼应目标:由urlbodystatusheaders等构成
item数据目标:本质是个字典
3.5scrapy中每个模块的详细效果
留意:
爬虫中间件和下载中间件仅仅运转逻辑的方位不同,效果是重复的:如替换UA等
小结
scrapy的概念:Scrapy是一个为了爬取网站数据,提取结构性数据而编写的使用结构
scrapy结构的运转流程以及数据传递进程:
爬虫中开始的url构形成request目标–>爬虫中间件–>引擎–>调度器
调度器把request–>引擎–>下载中间件—>下载器
下载器发送恳求,获取response呼应—->下载中间件—->引擎—>爬虫中间件—>爬虫
爬虫提取url地址,组装成request目标—->爬虫中间件—>引擎—>调度器,重复步骤2
爬虫提取数据—>引擎—>管道处理和保存数据
scrapy结构的效果:经过少量代码完成快速抓取
把握scrapy中每个模块的效果:引擎(engine):负责数据和信号在不腰痛模块间的传递调度器(scheduler):完成一个队列,寄存引擎发过来的request恳求目标下载器(downloader):发送引擎发过来的request恳求,获取呼应,并将呼应交给引擎爬虫(spider):处理引擎发过来的response,提取数据,提取url,并交给引擎管道(pipeline):处理引擎传递过来的数据,比方存储下载中间件(downloadermiddleware):能够自定义的下载扩展,比方设置署理ip爬虫中间件(spidermiddleware):能够自定义request恳求和进行response过滤,与下载中间件效果重复
1、IT大王遵守相关法律法规,由于本站资源全部来源于网络程序/投稿,故资源量太大无法一一准确核实资源侵权的真实性;
2、出于传递信息之目的,故IT大王可能会误刊发损害或影响您的合法权益,请您积极与我们联系处理(所有内容不代表本站观点与立场);
3、因时间、精力有限,我们无法一一核实每一条消息的真实性,但我们会在发布之前尽最大努力来核实这些信息;
4、无论出于何种目的要求本站删除内容,您均需要提供根据国家版权局发布的示范格式
《要求删除或断开链接侵权网络内容的通知》:https://itdw.cn/ziliao/sfgs.pdf,
国家知识产权局《要求删除或断开链接侵权网络内容的通知》填写说明: http://www.ncac.gov.cn/chinacopyright/contents/12227/342400.shtml
未按照国家知识产权局格式通知一律不予处理;请按照此通知格式填写发至本站的邮箱 wl6@163.com