关于爬虫:如何屏蔽-YandexBot

19次阅读

共计 1005 个字符,预计需要花费 3 分钟才能阅读完成。

咱们常常会受到大量的 YandexBot 拜访,咱们晓得 YandexBot 是 Yandex 的搜索引擎的爬虫。

大量的 YandexBot 拜访,不仅给服务器造成了十分大的压力,同时也会使失常访客拜访网站变慢,影响体验。

基于以上起因,咱们不得不限度 YandexBot 的拜访,然而须要留神的一点: 限度 Yandex 拜访会损失 Yandex 带给咱们的流量 ,因为限度了 Yandex 的爬虫索引咱们的网站,所以当用户在 Yandex 搜寻咱们网站的主题词时,不会有任何展现,所以也不会给咱们带来任何流量。

如果 Yandex 没有给咱们带来任何访客,那咱们就屏蔽它吧!

咱们能够通过上面三种形式屏蔽 Yandex:

IP 地址屏蔽

咱们通过 list crawlers YandexBot 查看到 YandexBot 的 IP 地址,咱们间接将这些 IP 退出到黑名单里就能够了,我以 Ubuntu 操作系统为例,如何将 IP 退出到防火墙的黑名单外面:

sudo iptables -A INPUT -s 213.180.203.82 -j DROP

下面的 IP 地址就是咱们通过 list crawlers YandexBot 页面查问到的 IP,间接一个一个的 IP 输出就能够了,一个一行。

益处:间接且迅速。

毛病:可能漏掉一些 YandexBot 的 IP 地址。

通过 User-agent 屏蔽 YandexBot

通过我的这一篇文章:yandex bot user agent,咱们能够看到每个 YandexBot 的具体 User-agent,咱们在 Nginx 外面能够这样屏蔽具体的 User-agent:

if ($http_user_agent ~* "Yandex") 
{return 403;}

这样咱们就能够通过 User-agent 屏蔽 YandexBot 的目标了。

长处:能够迅速间接的屏蔽 YandexBot。

通过 robots.txt 屏蔽 YandexBot

后面文章我曾经具体介绍过如何通过 robots.txt 屏蔽 YandexBot 了,在此不多说,须要的能够看这篇文章:block yandex bot

长处:合乎官网的标准要求。

毛病:Yandex 的有些爬虫并不恪守 robots.txt 协定,应用 robots.txt 协定也就无奈屏蔽了。

总结

这篇文章应用了三种形式屏蔽 YandexBot,并且介绍了优缺点,总有一种办法适宜你。

在最初还须要重申一下: 如果 Yandex 没有给你带来任何流量,你能够安心屏蔽,如果 Yandex 给你带来了流量,还是要三思而后行

正文完
 0