关于爬虫:如何通过-UserAgent-识别百度蜘蛛

54次阅读

共计 4088 个字符,预计需要花费 11 分钟才能阅读完成。

如果有大量的百度蜘蛛抓取网站就须要留神了:有可能是其余爬虫伪造百度蜘蛛歹意抓取网站。
如果遇到这种状况,这时候就须要查看日志来确定是不是真正的百度蜘蛛(baidu spider)。搜索引擎蜘蛛、用户拜访、爬虫等拜访都会留下 User-Agent。
咱们能够通过 User-Agent 大略判断是不是百度蜘蛛(baidu spider)。
百度 User-Agent 次要有以下几个:
百度 PC 蜘蛛 User-Agent 是:
Mozilla/5.0 (compatible; Baiduspider/2.0; + 如果有大量的百度蜘蛛抓取网站就须要留神了:有可能是其余爬虫伪造百度蜘蛛歹意抓取网站。
如果遇到这种状况,这时候就须要查看日志来确定是不是真正的百度蜘蛛(baidu spider)。搜索引擎蜘蛛、用户拜访、爬虫等拜访都会留下 User-Agent。
咱们能够通过 User-Agent 大略判断是不是百度蜘蛛(baidu spider)。
百度 User-Agent 次要有以下几个:
百度 PC 蜘蛛 User-Agent 是:
Mozilla/5.0 (compatible; Baiduspider/2.0; 如果有大量的百度蜘蛛抓取网站就须要留神了:有可能是其余爬虫伪造百度蜘蛛歹意抓取网站。
如果遇到这种状况,这时候就须要查看日志来确定是不是真正的百度蜘蛛(baidu spider)。搜索引擎蜘蛛、用户拜访、爬虫等拜访都会留下 User-Agent。
咱们能够通过 User-Agent 大略判断是不是百度蜘蛛(baidu spider)。
百度 User-Agent 次要有以下几个:
百度 PC 蜘蛛 User-Agent 是:
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/s…)
百度挪动蜘蛛 User-Agent 是:
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/s…)
还有一个是 Baiduspider-render/2.0 User-Agent 是:
Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/s…)
这个 Baiduspider-render/2.0 次要是为了给搜寻用户更好的体验、对站点实现更好地索引和出现,百度搜寻须要拜访网站的 CSS、Javascript 和图片信息,以便更精准地了解页面内容,实现搜寻后果最优排名,百度搜寻会全面启用最新 User-Agent 来拜访站点的上述资源。
Baiduspider-render/2.0 不同于 Baiduspider/2.0,Baiduspider-render/2.0 能够获取 Javascript 内容,实现动静渲染。
还有其余的百度产品的 User-Agent:
百度图片搜寻 User-Agent:
Baiduspider-image+(+http://www.baidu.com/search/s…)
百度视频搜寻 User-Agent:
Baiduspider-video
百度新闻搜寻 User-Agent:
Baiduspider-news
百度搜藏 User-Agent:
Baiduspider-favo
百度联盟 User-Agent:
Mozilla/5.0 (compatible; Baiduspider-cpro; +http://www.baidu.com/search/s…)
商务搜寻 User-Agent:
Baiduspider-ads
以上总结了百度所有产品的 User-Agent,然而仅仅通过 User-Agent 辨认百度蜘蛛(baidu spider)是齐全不够的,因为 User-Agent 齐全能够被伪造。
如何伪造 User-Agent 与如何通过 IP 辨认百度蜘蛛(baidu spider)我将在当前的文章中详述。
参考资料:)
百度挪动蜘蛛 User-Agent 是:
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/s…)
还有一个是 Baiduspider-render/2.0 User-Agent 是:
Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/s…)
这个 Baiduspider-render/2.0 次要是为了给搜寻用户更好的体验、对站点实现更好地索引和出现,百度搜寻须要拜访网站的 CSS、Javascript 和图片信息,以便更精准地了解页面内容,实现搜寻后果最优排名,百度搜寻会全面启用最新 User-Agent 来拜访站点的上述资源。
Baiduspider-render/2.0 不同于 Baiduspider/2.0,Baiduspider-render/2.0 能够获取 Javascript 内容,实现动静渲染。
还有其余的百度产品的 User-Agent:
百度图片搜寻 User-Agent:
Baiduspider-image+(+http://www.baidu.com/search/s…)
百度视频搜寻 User-Agent:
Baiduspider-video
百度新闻搜寻 User-Agent:
Baiduspider-news
百度搜藏 User-Agent:
Baiduspider-favo
百度联盟 User-Agent:
Mozilla/5.0 (compatible; Baiduspider-cpro; +http://www.baidu.com/search/s…)
商务搜寻 User-Agent:
Baiduspider-ads
以上总结了百度所有产品的 User-Agent,然而仅仅通过 User-Agent 辨认百度蜘蛛(baidu spider)是齐全不够的,因为 User-Agent 齐全能够被伪造。
如何伪造 User-Agent 与如何通过 IP 辨认百度蜘蛛(baidu spider)我将在当前的文章中详述。
参考资料:)
百度挪动蜘蛛 User-Agent 是:
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/s…)
还有一个是 Baiduspider-render/2.0 User-Agent 是:
Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/s…)
这个 Baiduspider-render/2.0 次要是为了给搜寻用户更好的体验、对站点实现更好地索引和出现,百度搜寻须要拜访网站的 CSS、Javascript 和图片信息,以便更精准地了解页面内容,实现搜寻后果最优排名,百度搜寻会全面启用最新 User-Agent 来拜访站点的上述资源。
Baiduspider-render/2.0 不同于 Baiduspider/2.0,Baiduspider-render/2.0 能够获取 Javascript 内容,实现动静渲染。
还有其余的百度产品的 User-Agent:
百度图片搜寻 User-Agent:
Baiduspider-image+(+http://www.baidu.com/search/s…)
百度视频搜寻 User-Agent:
Baiduspider-video
百度新闻搜寻 User-Agent:
Baiduspider-news
百度搜藏 User-Agent:
Baiduspider-favo
百度联盟 User-Agent:
Mozilla/5.0 (compatible; Baiduspider-cpro; +http://www.baidu.com/search/s…)
商务搜寻 User-Agent:
Baiduspider-ads
以上总结了百度所有产品的 User-Agent,然而仅仅通过 User-Agent 辨认百度蜘蛛(baidu spider)是齐全不够的,因为 User-Agent 齐全能够被伪造。
如何伪造 User-Agent 与如何通过 IP 辨认百度蜘蛛(baidu spider)我将在当前的文章中详述。
参考资料:
https://www.pdflibr.com/crawl…
http://help.baidu.com/questio…

正文完
 0