python爬虫(python爬虫经典例子)

IT技术3年前发布投稿用户

网络爬虫（又被称为网页蜘蛛，网络机器人），是一种按照必定的规矩，自动地抓取万维网信息的程序或许脚本。别的一些不常运用的姓名还有蚂蚁、自动索引、模拟程序或许蠕虫。

浅显地讲，咱们把互联网比作一张大蜘蛛网，每个站点资源比作蜘蛛网上的一个结点，爬虫就像一只蜘蛛，按照设计好的道路和规矩在这张蜘蛛网上找到目标结点，获取资源。
为什么运用爬虫
为什么咱们需求运用爬虫呢？
咱们能够幻想一下一个场景：你非常崇拜一个微博名人，对他的微博非常入神，你想把他十年来微博上的每一句话摘抄下来，制作成名人语录。这个时分你怎么办呢？手动去Ctrl+C和Ctrl+V吗？这种办法的确没错，数据量小的时分咱们还能够这样做，但是数据不计其数的时分你还要这样做吗？
咱们再来幻想另一个场景：你要做一个新闻聚合网站，每天需求守时去几个新闻网站获取最新的新闻，咱们称之为RSS订阅。难道你会守时去各个订阅网站复制新闻吗？恐怕个人很难做到这一点吧。
上面两种场景，运用爬虫技术能够很轻易地解决问题。所以，咱们能够看到，爬虫技术首要能够帮助咱们做两类工作：一类是数据获取需求，首要针对特定规矩下的大数据量的信息获取；另一类是自动化需求，首要应用在相似信息聚合、查找等方面。

爬虫的分类
从爬取对象来看，爬虫能够分为通用爬虫和聚集爬虫两类。
通用网络爬虫又称全网爬虫（ScalableWebCrawler），匍匐对象从一些种子URL扩充到整个Web，首要为查找引擎和大型Web服务提供商收集数据。这类网络爬虫的爬取规模和数量巨大，关于匍匐速度和存储空间要求较高，关于匍匐页面的次序要求相对较低。例如咱们常见的百度和谷歌查找。咱们输入关键词，它们会从全网去找关键词相关的网页，并且按照必定的次序呈现给咱们。
聚集网络爬虫（FocusedCrawler），是指挑选性地爬取那些与预先界说好的主题相关页面的网络爬虫。和通用网络爬虫比较，聚集爬虫只需求爬取特定的网页，爬取的广度会小很多。例如咱们需求爬取东方财富网的基金数据，咱们只需求针对东方财富网的页面拟定规矩爬取就行。
浅显地讲，通用爬虫就相似于一只蜘蛛，需求寻觅特定的食物，但是它不知道蜘蛛网的哪个节点有，所以它只能从一个节点开始寻觅，遇到节点就看一下，假如有食物就获取食物，假如这个节点指示某某节点有食物，那它就顺着指示去寻觅下个节点。而聚集网络爬虫就是这只蜘蛛知道哪个节点有食物，它只需求规划好道路到达那个节点就能获取到食物。

python爬虫经典例子

1.爬取强壮的BD页面，打印页面信息#第一个爬虫示例,爬取百度页面
importrequests#导入爬虫的库，否则调用不了爬虫的函数
response=requests.get(“http://www.baidu.com”)#生成一个response目标
response.encoding=response.apparent_encoding#设置编码格式
print(“状况码:”+str(response.status_code))#打印状况码
print(response.text)#输出爬取的信息

2.常用办法之get办法实例，下面还有传参实例#第二个get办法实例
importrequests#先导入爬虫的库，否则调用不了爬虫的函数
response=requests.get(“http://httpbin.org/get”)#get办法
print(response.status_code)#状况码
print(response.text)

3.常用办法之post办法实例，下面还有传参实例#第三个post办法实例
importrequests#先导入爬虫的库，否则调用不了爬虫的函数
response=requests.post(“http://httpbin.org/post”)#post办法访问
print(response.status_code)#状况码
print(response.text)

IT技术 # Python # python爬虫

文章版权归作者所有，未经允许请勿转载。

版权声明：
1、IT大王遵守相关法律法规，由于本站资源全部来源于网络程序/投稿，故资源量太大无法一一准确核实资源侵权的真实性；
2、出于传递信息之目的，故IT大王可能会误刊发损害或影响您的合法权益，请您积极与我们联系处理(所有内容不代表本站观点与立场)；
3、因时间、精力有限，我们无法一一核实每一条消息的真实性，但我们会在发布之前尽最大努力来核实这些信息；
4、无论出于何种目的要求本站删除内容，您均需要提供根据国家版权局发布的示范格式
《要求删除或断开链接侵权网络内容的通知》：https://itdw.cn/ziliao/sfgs.pdf，
国家知识产权局《要求删除或断开链接侵权网络内容的通知》填写说明： http://www.ncac.gov.cn/chinacopyright/contents/12227/342400.shtml
未按照国家知识产权局格式通知一律不予处理；请按照此通知格式填写发至本站的邮箱 wl6@163.com

python爬虫(python爬虫经典例子)

python爬虫经典例子

jQuery文字点击验证代码

linux系统安装(图文步骤教程)

相关文章

python代码(python代码示例)

python爬虫教程(最简单的python爬虫项目)

linux系统安装(电脑安装linux系统教程)

python开发工具(排名)