关于爬虫:如何识别假爬虫

7次阅读

共计 758 个字符,预计需要花费 2 分钟才能阅读完成。

咱们在查看网站日志的时候,常常会遇到各种各样的爬虫。有的是失常的爬虫,例如:搜索引擎爬虫(百度搜索引擎爬虫、Google 搜索引擎爬虫,Bing 搜索引擎爬虫、YandexBot 等),还有一些各种性能的爬虫,能够在这里查看:list crawlers。

然而,互联网上并不是所有的爬虫都是无益的,有些爬虫为了竭力暗藏本人,于是就会学习实在爬虫的一些特色。还有一些是假爬虫,也就是伪造那些搜索引擎的爬虫,会来抓取你网站的数据,尽管 User-agent 看起来与搜索引擎的无异,然而 IP 却不属于该搜索引擎的,这个时候据须要咱们精准的辨认这些假爬虫的 IP 地址。

通过爬虫 IP 查问工具,咱们便能够很轻松的辨认假爬虫,例如:

34.68.229.128 Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

这个是我简化了的日志记录,后面是 IP 地址,前面是拜访爬虫的 User-agent,通过 User-agent 咱们能够看进去他是一个 Google 搜索引擎的蜘蛛。

通过查问,咱们能够看到这是一个假的 Google 蜘蛛,截图如下:

咱们只须要输出假爬虫的 IP 地址,就可以看进去爬虫的一些信息。这样不论是虚实李逵(虚实爬虫)都逃不出咱们的火眼金睛了。

同时如果咱们想查看更多的假爬虫,能够到这里去:list crawlers fake bot,整顿了互联网上常见的假爬虫。

总结

通过介绍什么是假爬虫,以及如何通过爬虫 IP 查问这个工具,精准辨认假爬虫。

正文完
 0