关于爬虫:如何识别假爬虫

咱们在查看网站日志的时候，常常会遇到各种各样的爬虫。有的是失常的爬虫，例如：搜索引擎爬虫（百度搜索引擎爬虫、Google 搜索引擎爬虫，Bing 搜索引擎爬虫、YandexBot 等），还有一些各种性能的爬虫，能够在这里查看：list crawlers。

然而，互联网上并不是所有的爬虫都是无益的，有些爬虫为了竭力暗藏本人，于是就会学习实在爬虫的一些特色。还有一些是假爬虫，也就是伪造那些搜索引擎的爬虫，会来抓取你网站的数据，尽管 User-agent 看起来与搜索引擎的无异，然而 IP 却不属于该搜索引擎的，这个时候据须要咱们精准的辨认这些假爬虫的 IP 地址。

通过爬虫 IP 查问工具，咱们便能够很轻松的辨认假爬虫，例如：

34.68.229.128 Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

这个是我简化了的日志记录，后面是 IP 地址，前面是拜访爬虫的 User-agent ，通过 User-agent 咱们能够看进去他是一个 Google 搜索引擎的蜘蛛。

通过查问，咱们能够看到这是一个假的 Google 蜘蛛，截图如下：

咱们只须要输出假爬虫的 IP 地址，就可以看进去爬虫的一些信息。这样不论是虚实李逵（虚实爬虫）都逃不出咱们的火眼金睛了。

同时如果咱们想查看更多的假爬虫，能够到这里去：list crawlers fake bot，整顿了互联网上常见的假爬虫。

总结

通过介绍什么是假爬虫，以及如何通过爬虫 IP 查问这个工具，精准辨认假爬虫。

关于爬虫:如何识别假爬虫

总结

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于爬虫:如何识别假爬虫

总结

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复