关于爬虫:爬虫数据是如何收集和整理的

3次阅读

共计 926 个字符,预计需要花费 3 分钟才能阅读完成。

有用户始终好奇爬虫辨认网站上的爬虫数据是如何整顿的,明天就更大家来揭秘爬虫数据是如何收集整理的。

通过查问 IP 地址来取得 rDNS 形式

咱们能够通过爬虫的 IP 地址来反向查问 rDNS,例如:咱们通过反向 DNS 查找工具查找此 IP: 116.179.32.160 ,rDNS 为:baiduspider-116-179-32-160.crawl.baidu.com

从下面大抵能够判断应该是百度搜索引擎蜘蛛。因为 Hostname 能够伪造,所以咱们只有反向查找,依然不精确。咱们还须要正向查找,咱们通过 ping 命令查找 baiduspider-116-179-32-160.crawl.baidu.com 是否被解析为:116.179.32.160,通过下图能够看出 baiduspider-116-179-32-160.crawl.baidu.com 被解析为 116.179.32.160 的 IP 地址,阐明是百度搜索引擎爬虫确信无疑。

通过 ASN 相干信息查找

并不是所有爬虫都恪守下面的规定,大部分爬虫反向查找没有任何后果,咱们须要查问 IP 地址的 ASN 信息来判断爬虫信息是不是正确。

例如:这个 IP 是 74.119.118.20,咱们通过查问 IP 信息能够看到这个 IP 地址是美国加利福尼亚桑尼维尔的 IP 地址。

通过 ASN 信息咱们能够看进去他是 Criteo Corp. 公司的 IP。

下面的截图是通过日志记录查看到 critieo crawler 的记录信息,黄色局部是它的 User-agent,前面是它的 IP,这条记录也没有什么问题(这个 IP 确实是
CriteoBot 的 IP 地址)。

通过爬虫的官网文档颁布的 IP 地址段

有一些爬虫会颁布 IP 地址段,咱们会将官网颁布的爬虫 IP 地址段间接保留到数据库,这是一种既简略又快捷的办法。

通过公开日志

咱们常常能够在互联网上查看到公开日志,例如下图就是我找到的公开日志记录:

咱们能够对日志记录进行解析,依据 User-agent 来判断那些是爬虫,那些是访客,极大的丰盛了咱们的爬虫记录数据库。

总结

通过以上四个形式具体阐明了爬虫辨认网站是如何收集和整顿爬虫数据的,同时如何确保爬虫数据的精确牢靠,当然在实际操作过程中不仅仅是以上四种办法,不过都应用的比拟少,所以在此处也不做介绍。

正文完
 0