python爬虫(python爬虫经典例子)

IT技术2年前 (2022)发布 投稿用户
0

网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照必定的规矩,自动地抓取万维网信息的程序或许脚本。别的一些不常运用的姓名还有蚂蚁、自动索引、模拟程序或许蠕虫。

浅显地讲,咱们把互联网比作一张大蜘蛛网,每个站点资源比作蜘蛛网上的一个结点,爬虫就像一只蜘蛛,按照设计好的道路和规矩在这张蜘蛛网上找到目标结点,获取资源。
为什么运用爬虫
为什么咱们需求运用爬虫呢?
咱们能够幻想一下一个场景:你非常崇拜一个微博名人,对他的微博非常入神,你想把他十年来微博上的每一句话摘抄下来,制作成名人语录。这个时分你怎么办呢?手动去Ctrl+C和Ctrl+V吗?这种办法的确没错,数据量小的时分咱们还能够这样做,但是数据不计其数的时分你还要这样做吗?
咱们再来幻想另一个场景:你要做一个新闻聚合网站,每天需求守时去几个新闻网站获取最新的新闻,咱们称之为RSS订阅。难道你会守时去各个订阅网站复制新闻吗?恐怕个人很难做到这一点吧。
上面两种场景,运用爬虫技术能够很轻易地解决问题。所以,咱们能够看到,爬虫技术首要能够帮助咱们做两类工作:一类是数据获取需求,首要针对特定规矩下的大数据量的信息获取;另一类是自动化需求,首要应用在相似信息聚合、查找等方面。

python爬虫


爬虫的分类
从爬取对象来看,爬虫能够分为通用爬虫和聚集爬虫两类。
通用网络爬虫又称全网爬虫(ScalableWebCrawler),匍匐对象从一些种子URL扩充到整个Web,首要为查找引擎和大型Web服务提供商收集数据。这类网络爬虫的爬取规模和数量巨大,关于匍匐速度和存储空间要求较高,关于匍匐页面的次序要求相对较低。例如咱们常见的百度和谷歌查找。咱们输入关键词,它们会从全网去找关键词相关的网页,并且按照必定的次序呈现给咱们。
聚集网络爬虫(FocusedCrawler),是指挑选性地爬取那些与预先界说好的主题相关页面的网络爬虫。和通用网络爬虫比较,聚集爬虫只需求爬取特定的网页,爬取的广度会小很多。例如咱们需求爬取东方财富网的基金数据,咱们只需求针对东方财富网的页面拟定规矩爬取就行。
浅显地讲,通用爬虫就相似于一只蜘蛛,需求寻觅特定的食物,但是它不知道蜘蛛网的哪个节点有,所以它只能从一个节点开始寻觅,遇到节点就看一下,假如有食物就获取食物,假如这个节点指示某某节点有食物,那它就顺着指示去寻觅下个节点。而聚集网络爬虫就是这只蜘蛛知道哪个节点有食物,它只需求规划好道路到达那个节点就能获取到食物。

python爬虫经典例子

1.爬取强壮的BD页面,打印页面信息#第一个爬虫示例,爬取百度页面
importrequests#导入爬虫的库,否则调用不了爬虫的函数
response=requests.get(“http://www.baidu.com”)#生成一个response目标
response.encoding=response.apparent_encoding#设置编码格式
print(“状况码:”+str(response.status_code))#打印状况码
print(response.text)#输出爬取的信息

python


2.常用办法之get办法实例,下面还有传参实例#第二个get办法实例
importrequests#先导入爬虫的库,否则调用不了爬虫的函数
response=requests.get(“http://httpbin.org/get”)#get办法
print(response.status_code)#状况码
print(response.text)

3.常用办法之post办法实例,下面还有传参实例#第三个post办法实例
importrequests#先导入爬虫的库,否则调用不了爬虫的函数
response=requests.post(“http://httpbin.org/post”)#post办法访问
print(response.status_code)#状况码
print(response.text)

© 版权声明
好牛新坐标 广告
版权声明:
1、IT大王遵守相关法律法规,由于本站资源全部来源于网络程序/投稿,故资源量太大无法一一准确核实资源侵权的真实性;
2、出于传递信息之目的,故IT大王可能会误刊发损害或影响您的合法权益,请您积极与我们联系处理(所有内容不代表本站观点与立场);
3、因时间、精力有限,我们无法一一核实每一条消息的真实性,但我们会在发布之前尽最大努力来核实这些信息;
4、无论出于何种目的要求本站删除内容,您均需要提供根据国家版权局发布的示范格式
《要求删除或断开链接侵权网络内容的通知》:https://itdw.cn/ziliao/sfgs.pdf,
国家知识产权局《要求删除或断开链接侵权网络内容的通知》填写说明: http://www.ncac.gov.cn/chinacopyright/contents/12227/342400.shtml
未按照国家知识产权局格式通知一律不予处理;请按照此通知格式填写发至本站的邮箱 wl6@163.com

相关文章