关于python:Python爬虫是什么

Python 爬虫是什么？

Python 爬虫是由 Python 程序开发的网络爬虫 (webspider，webrobot)，是依照肯定规定主动抓取万维网信息的程序或脚本。

其实个别是通过程序在网页上获取你想要的数据，也就是主动抓取数据。

为什么须要用爬虫？

你能够设想一个场景: 你在微博上崇拜一个名人，被他的微博迷住了。你要把他这十年微博里的每一句话都摘抄下来。这个时候你会怎么做？手动上 Ctrl+ C 和 Ctrl+V？这个办法是对的。在数据量很小的状况下咱们还是能够这样做的，然而在数据数千的状况下你还是要这样做吗？

爬虫技术能够轻松解决问题。咱们能够看到爬虫技术次要能够帮忙咱们做两种事件：一种是对数据采集的需要，次要针对特定规定下的大量数据的信息采集；另一个是自动化需要，次要用于信息聚合和搜寻。

大大提高工作效率和工作品质！

通用网络爬虫 (UniversalWebcrawler)，又叫 ScalableWebCrawler，从一些种子 URL 抓取到整个 Web，次要是为搜索引擎和大型 Web 服务提供商收集数据。这类网络爬虫的抓取范畴和数量微小，对抓取速度和存储空间要求较高，抓取页面的程序绝对较低。比方咱们常见的百度和谷歌搜寻。当咱们输出关键词时，他们会从整个网络中寻找与关键词相干的网页，并依照肯定的程序出现给咱们。

聚焦爬虫是指选择性地抓取与预约义主题相干的页面的爬虫。相比个别的 web 爬虫，聚焦爬虫只须要抓取特定的网页，抓取的广度会小很多。

一般来说，通用爬虫相似蜘蛛，须要寻找特定的食物，然而不晓得蜘蛛网的哪个节点有，所以只能从一个节点开始，遇到一个节点就看一下，有食物就失去食物，如果这个节点示意某个节点有食物，就会依照批示找到下一个节点。聚焦的网络爬虫意味着这只蜘蛛晓得哪个节点有食物，它只须要打算一条达到那个节点的路线就能够取得食物。