关于爬虫:反爬虫的重点识别爬虫

咱们在网站经营的时候，最大的问题就是：咱们本人破费几个小时甚至是几天辛辛苦苦创作作的内容，被爬虫只须要 1s 就抓去了。为了捍卫咱们创作的成绩，也为了网站的稳固运行，咱们须要对爬虫说：No，咱们在反爬虫的过程中最重要的就是如何辨认爬虫。

为了辨认辨认爬虫，罕用的有以下几个办法：

所谓的真人检测也就是呈现一个验证码，让你输出验证码的内容，这些验证码对于人类来说很容易辨认，然而对于机器来说却很难辨认，例如这种验证码：

这种验证码只有人类很轻易辨认，爬虫却很难辨认。

这里验证码对于人类来说也很敌对，咱们只须要将滑块移到一个暗影的地位，例如上面这种：

这类验证码对于人来来说轻而易举，然而对于爬虫来说有肯定难度，然而也是能够破解的。

这些在一些非凡场合确实是能够避免爬虫对于你创作内容的抓取，然而你胜利的避免了歹意爬虫，也胜利的避免了搜索引擎爬虫来抓取你的内容。

咱们为什么要容许搜索引擎爬虫来抓取咱们的内容？

这个次要是因为搜索引擎能够给我带来流量，有了流量咱们就能够想方法变现，有没有嗅到金钱的滋味。

例如咱们在百度搜寻：爬虫辨认，并点击了我的网站，就有访客拜访网站，就给网站带来了流量。

那百度怎么晓得咱们网站上有什么内容呢？

百度搜索引擎每天有成千上万的爬虫在互联网上抓取内容，并将百度爬虫抓取的内容存入本人的索引之中，在依据肯定的算法为每个网页排名，之后用户搜寻相应的关键词之后，有可能会达到你网站，就会给你带来流量。

这就是为什么咱们不能屏蔽搜索引擎爬虫的起因了，如果你像屏蔽其余爬虫一样屏蔽搜索引擎爬虫，那么搜索引擎爬虫将无奈抓取你网站的内容，就不会在搜寻后果中展现你的网站，也不会为你带来任何流量。

那当初有一个问题就是，咱们既要屏蔽一些歹意爬虫，又不能屏蔽搜索引擎爬虫，我真的好难呀！

为了解决这个问题，咱们能够应用爬虫辨认这个网站来解决下面的问题。

首先咱们须要依据 User-agent 先过滤掉一部分歹意爬虫，搜索引擎的 User-agent 咱们能够在这里查看：搜索引擎爬虫

这里收集和整顿了市面上大部分搜索引擎的 User-agent 与 IP 地址，例如上面是百度蜘蛛的 User-agent：

通过比对 User-agent 咱们能够初步判断是不是搜索引擎的爬虫，然而 User-agent 是能够轻易伪造的，所以咱们还须要配合 IP 来辨认爬虫是否是实在的。

咱们只须要到爬虫 IP 查问输出 IP 就能够晓得这个是不是伪造爬虫了。

这篇文章首先从验证码开始如何避免爬虫抓取咱们网站，然而咱们又不能屏蔽所有爬虫抓取咱们网站，咱们如何通过 User-agent 与 IP 联合的形式判断是搜索引擎爬虫，并让其抓取咱们网站。

评论