关于爬虫:rogerbot-爬虫介绍

11次阅读

共计 2260 个字符,预计需要花费 6 分钟才能阅读完成。

Rogerbot 是 Moz Pro Campaign 网站审核的 Moz 爬虫。它与 Dotbot 不同,Dotbot 是为链接索引提供反对的网络爬虫。Rogerbot 拜访您网站的代码以将报告发送回您的 Moz Pro Campaign。这能够帮忙您理解您的网站并教您如何解决可能影响您的排名的问题。Rogerbot 为您的站点抓取报告、按需抓取、页面优化报告和页面评分器提供数据。

Rogerbot 是如何解决 Robots.txt 文件

Rogerbot 旨在恪守 robots.txt 文件。您能够应用这个微妙的文件来告诉机器人它们应该如何在您的站点上运行。这有点像行为准则:你晓得,脱掉你的鞋子,远离餐厅,把那些肘部从桌子上拿开,天哪!之类的货色。

每个站点都应该有一个 robots.txt 文件。您能够通过拜访 www.pdflibr.com/robots.txt 来查看它是否存在。您还能够查看任何其余站点的 robots.txt 文件,只是为了好玩。例如:pdf-lib.org/robots.txtbaidu.com/robots.txt,是的,甚至是 google.com/robots.txt。任何人都能够看到您的 robots.txt 文件;它是公开的,所以请记住这一点。

如果您的网站没有 robots.txt 文件、您的 robots.txt 文件无奈加载或返回谬误,Rogerbot 可能无奈抓取您的网站。这也可能导致导致服务器日志收缩的谬误。您须要在文件中蕴含一些内容,因为空白文件可能会使查看您的站点是否正确设置的人感到困惑。他们可能认为这是一个谬误。即便您没有阻止任何机器人,配置了某些内容的文件也是可取的。

Rogerbot 用户代理

要间接与 rogerbot 交谈,您能够通过他们的名字(也称为用户代理)来称说他们。Rogerbot 用户代理是:rogerbot。

如何通过 Robots.txt 容许 Rogerbot 抓取您的网站

要通知 rogerbot 它能够抓取您网站上的所有页面,您能够在 robots.txt 文件这样写:

User-agent: rogerbot

Disallow:

disallow: 之后的字段为空,则特地示意 不应阻止任何 URL

通过 Robots.txt 阻止 Rogerbot 抓取您的网站

如果您厌倦了 rogerbot 抓取您的网站,您能够通过在 robots.txt 文件中的 disallow 指令后增加斜杠 (“/”) 来阻止抓取工具。那就是说:“Rogerbot,您无法访问这些页面中的任何一个,该站点上的所有页面都不适宜您,请远离,伙计。”

应用您的 robots.txt 文件阻止 rogerbot 如下所示:

User-agent: rogerbot

Disallow: /

留神示意站点根目录的斜线。增加此代码将阻止 rogerbot 抓取您的网站所有页面。

您还能够从站点的某些局部(例如子文件夹)中排除 rogerbot。上面是阻止 rogerbot 抓取您某个目录的所有页面:

User-agent: rogerbot

Disallow: */manage/*

此语法仅通知 Rogerbot 爬虫不要爬取任何蕴含此 URL 字符串的页面,例如:www.pdflibr.com/marketplace/

建议您在进行更改后应用这个机器人查看器工具查看您的 robots.txt 文件,以防止任何令人讨厌的意外。

通过 Robots.txt 匍匐提早以减慢 Rogerbot 爬虫对您网站的抓取速度

rogertbot 心愿尽可能快地抓取您的网站,以便可能及时实现抓取,而不会给您的人类访问者带来问题。

如果您想减慢 rogerbot 的速度,能够应用 Crawl Delay 指令。以下指令仅容许 rogerbot 每 10 秒拜访一次您的站点,上面是 robots.txt 的具体写法:

User-agent: rogerbot

Crawl-delay: 10

请记住,当您思考一天有 86,400 秒时,这将容许 Rogerbot 在一天内拜访 8,640 个页面,因而如果您有很多页面要抓取,这可能意味着抓取您的网站须要一段时间。

不倡议增加大于 30 秒的抓取提早,否则 rogerbot 可能无奈实现对您网站的抓取。

Rogerbot 的 IP 范畴

可怜的是,rogerbot 不应用动态 IP 地址或 IP 地址范畴,因为 rogerbot 爬虫设计为采纳动静办法。这意味着 rogerbot 应用数千个动静 IP 地址,每次运行爬网时这些地址都会发生变化。这种办法提供了最好的网络动静视图,但它可能使咱们与某些服务器或托管服务提供商不兼容。

最好的抉择是通过用户代理辨认爬虫:rogerbot。

阻止 Rogerbot 拜访动静页面

阻止 rogerbot 的爬虫拜访这些动静标记页面的最佳办法是应用您的 robots.txt 文件中的 disallow 指令阻止它拜访它们。它看起来像这样:

User-agent: Rogerbot

Disallow: /TAG TYPE

通过 Robots.txt 阻止除 Rogerbot 之外的所有机器人

确保在“所有机器人指令”上方有“用户代理特定指令”,例如上面的写法:

User-agent: rogerbot

Disallow:

User-agent: *

Disallow: /

rogerbot 是否反对“allow”指令?

rogerbot 反对“allow”指令。

要容许在目录中抓取页面,同时禁止 rogerbot 拜访目录的其余部分,您能够在 robots.txt 文件中增加如下内容:

User-agent: rogerbot

Allow: /crawler/roger-bot

Disallow: /crawler/

正文完
 0