Python 爬虫是什么?
Python 爬虫是由 Python 程序开发的网络爬虫 (webspider,webrobot),是依照肯定规定主动抓取万维网信息的程序或脚本。
其实个别是通过程序在网页上获取你想要的数据,也就是主动抓取数据。
为什么须要用爬虫?
你能够设想一个场景: 你在微博上崇拜一个名人,被他的微博迷住了。你要把他这十年微博里的每一句话都摘抄下来。这个时候你会怎么做?手动上 Ctrl+ C 和 Ctrl+V?这个办法是对的。在数据量很小的状况下咱们还是能够这样做的,然而在数据数千的状况下你还是要这样做吗?
爬虫技术能够轻松解决问题。咱们能够看到爬虫技术次要能够帮忙咱们做两种事件:一种是对数据采集的需要,次要针对特定规定下的大量数据的信息采集;另一个是自动化需要,次要用于信息聚合和搜寻。
大大提高工作效率和工作品质!
通用网络爬虫 (UniversalWebcrawler),又叫 ScalableWebCrawler,从一些种子 URL 抓取到整个 Web,次要是为搜索引擎和大型 Web 服务提供商收集数据。这类网络爬虫的抓取范畴和数量微小,对抓取速度和存储空间要求较高,抓取页面的程序绝对较低。比方咱们常见的百度和谷歌搜寻。当咱们输出关键词时,他们会从整个网络中寻找与关键词相干的网页,并依照肯定的程序出现给咱们。
聚焦爬虫是指选择性地抓取与预约义主题相干的页面的爬虫。相比个别的 web 爬虫,聚焦爬虫只须要抓取特定的网页,抓取的广度会小很多。
一般来说,通用爬虫相似蜘蛛,须要寻找特定的食物,然而不晓得蜘蛛网的哪个节点有,所以只能从一个节点开始,遇到一个节点就看一下,有食物就失去食物,如果这个节点示意某个节点有食物,就会依照批示找到下一个节点。聚焦的网络爬虫意味着这只蜘蛛晓得哪个节点有食物,它只须要打算一条达到那个节点的路线就能够取得食物。