爬虫辨认网站收集和整顿了 yandexbot 所有的 user-agent,不便大家辨认 yandexbot。
yandexbot user-agent 列表
Mozilla/5.0 (compatible; YandexAccessibilityBot/3.0; +http://yandex.com/bots)
阐明:YandexAccessibilityBot 下载页面以检查用户的可拜访性。它每秒最多向站点发送 3 个申请。机器人会疏忽 Yandex.Webmaster 界面中的设置。
是否恪守 robots.txt 协定:否
Mozilla/5.0 (compatible; YandexAdNet/1.0; +http://yandex.com/bots)
阐明:Yandex 广告机器人
是否恪守 robots.txt 协定:是
Mozilla/5.0 (compatible; YandexBlogs/0.99; robot; +http://yandex.com/bots)
阐明:索引帖子评论的博客搜寻机器人。
是否恪守 robots.txt 协定:是
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
阐明:yandex 搜索引擎次要索引机器人
是否恪守 robots.txt 协定:是
Mozilla/5.0 (compatible; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots)
阐明:检测站点镜像机器人
是否恪守 robots.txt 协定:是
Mozilla/5.0 (compatible; YandexCalendar/1.0; +http://yandex.com/bots)
阐明:Yandex.Calendar 机器人。依据用户的申请下载日历文件。这些文件通常位于禁止索引的目录中。
是否恪守 robots.txt 协定:否
Mozilla/5.0 (compatible; YandexDirect/3.0; +http://yandex.com/bots)
阐明:下载无关 Yandex Advertising 网络合作伙伴网站内容的信息,以辨认其主题类别以匹配相干广告。
是否恪守 robots.txt 协定:否
Mozilla/5.0 (compatible; YandexDirectDyn/1.0; +http://yandex.com/bots
阐明:生成动静 banner
是否恪守 robots.txt 协定:否
Mozilla/5.0 (compatible; YandexFavicons/1.0; +http://yandex.com/bots)
阐明:下载站点的图标文件以显示在搜寻后果中。
是否恪守 robots.txt 协定:否
Mozilla/5.0 (compatible; YaDirectFetcher/1.0; Dyatel; +http://yandex.com/bots)
阐明:下载广告的指标页面以查看其可用性和主题。这是在搜寻后果和合作伙伴网站上搁置广告所必须的。
是否恪守 robots.txt 协定:否,器人不应用 robots.txt 文件并疏忽为其设置的指令。
Mozilla/5.0 (compatible; YandexForDomain/1.0; +http://yandex.com/bots)
阐明:Yandex.Mail 域机器人,用于验证域所有权。
是否恪守 robots.txt 协定:是
Mozilla/5.0 (compatible; YandexImages/3.0; +http://yandex.com/bots)
阐明:Yandex 图片索引机器人。
是否恪守 robots.txt 协定:是
Mozilla/5.0 (compatible; YandexImageResizer/2.0; +http://yandex.com/bots)
阐明:挪动设施机器人。
是否恪守 robots.txt 协定:是
Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexBot/3.0; +http://yandex.com/bots)
阐明:Ynadex 搜索引擎索引机器人。
是否恪守 robots.txt 协定:是
Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexMobileBot/3.0; +http://yandex.com/bots)
阐明:定义布局适宜挪动设施的页面。
是否恪守 robots.txt 协定:否
Mozilla/5.0 (compatible; YandexMarket/1.0; +http://yandex.com/bots)
阐明:Yandex.Market 机器人。
是否恪守 robots.txt 协定:是
Mozilla/5.0 (compatible; YandexMarket/2.0; +http://yandex.com/bots)
阐明:Yandex.Market 机器人。
是否恪守 robots.txt 协定:否
Mozilla/5.0 (compatible; YandexMedia/3.0; +http://yandex.com/bots)
阐明:索引多媒体数据。
是否恪守 robots.txt 协定:是
Mozilla/5.0 (compatible; YandexMetrika/2.0; +http://yandex.com/bots yabs01)
阐明:Yandex.Metrica 机器人。下载并缓存 CSS 款式以在 Webvisor 中出现网站页面。
是否恪守 robots.txt 协定:否,机器人不应用 robots.txt 文件并疏忽为其设置的指令。
Mozilla/5.0 (compatible; YandexMobileScreenShotBot/1.0; +http://yandex.com/bots)
阐明:截取挪动页面的屏幕截图。
是否恪守 robots.txt 协定:否
Mozilla/5.0 (compatible; YandexNews/4.0; +http://yandex.com/bots)
阐明:Yandex.News 机器人。
是否恪守 robots.txt 协定:是
Mozilla/5.0 (compatible; YandexOntoDB/1.0; +http://yandex.com/bots)
阐明:对象响应爬虫
是否恪守 robots.txt 协定:是
Mozilla/5.0 (compatible; YandexOntoDBAPI/1.0; +http://yandex.com/bots)
阐明:下载动态数据的对象响应机器人。
是否恪守 robots.txt 协定:否
Mozilla/5.0 (compatible; YandexPagechecker/1.0; +http://yandex.com/bots)
阐明:通过结构化数据验证器拜访验证微标记的页面。
是否恪守 robots.txt 协定:是
Mozilla/5.0 (compatible; YandexPartner/3.0; +http://yandex.com/bots)
阐明:下载无关 Yandex 合作伙伴网站内容的信息。
是否恪守 robots.txt 协定:否
Mozilla/5.0 (compatible; YandexRCA/1.0; +http://yandex.com/bots)
阐明:收集数据以生成预览。例如,向导预览。
是否恪守 robots.txt 协定:否
Mozilla/5.0 (compatible; YandexSearchShop/1.0; +http://yandex.com/bots)
阐明:按用户要求下载 YML 文件中的产品目录。这些文件通常搁置在禁止索引的目录中。
是否恪守 robots.txt 协定:否
Mozilla/5.0 (compatible; YandexSitelinks; Dyatel; +http://yandex.com/bots)
阐明:查看用作附加链接的页面的可用性。
是否恪守 robots.txt 协定:是
Mozilla/5.0 (compatible; YandexSpravBot/1.0; +http://yandex.com/bots)
阐明:Yandex.Business 爬虫。
是否恪守 robots.txt 协定:是
Mozilla/5.0 (compatible; YandexTracker/1.0; +http://yandex.com/bots)
阐明:Yandex.Tracker 爬虫。
是否恪守 robots.txt 协定:否
Mozilla/5.0 (compatible; YandexTurbo/1.0; +http://yandex.com/bots)
阐明:抓取为生成 Turbo 页面而创立的 RSS 提要。它每秒最多向站点发送 3 个申请。机器人会疏忽 Yandex.Webmaster 界面和 Crawl-delay 指令中的设置。
是否恪守 robots.txt 协定:是
Mozilla/5.0 (compatible; YandexVertis/3.0; +http://yandex.com/bots)
阐明:垂直搜寻机器人。
是否恪守 robots.txt 协定:是
Mozilla/5.0 (compatible; YandexVerticals/1.0; +http://yandex.com/bots)
阐明:Yandex.Verticals 机器人:Auto.ru、Yanex.Realty、Yandex.Rabota、Yandex.Reviews。
是否恪守 robots.txt 协定:是
Mozilla/5.0 (compatible; YandexVideo/3.0; +http://yandex.com/bots)
阐明:Yandex.Video 索引爬虫,显示的视频剪辑。
是否恪守 robots.txt 协定:是
Mozilla/5.0 (compatible; YandexVideoParser/1.0; +http://yandex.com/bots)
阐明:Yandex.Video 索引爬虫,显示的视频剪辑。
是否恪守 robots.txt 协定:否
Mozilla/5.0 (compatible; YandexWebmaster/2.0; +http://yandex.com/bots)
阐明:Yandex.Webmaster 机器人
是否恪守 robots.txt 协定:是
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z* Safari/537.36 (compatible; YandexScreenshotBot/3.0; +http://yandex.com/bots)
阐明:截取页面的屏幕截图。
是否恪守 robots.txt 协定:是
* WXYZ 字符的组合是 Chrome 浏览器的用户代理版本的占位符。例如:101.0.4951.54。
总结
这篇文章收集和整顿了所有 Yandex 爬虫的 User-agent 列表,因为 Yandex 业务繁冗,所以存在各种各样的爬虫,咱们在经营网站的时候,如果不确定是不是 Yandex 的爬虫,咱们能够看看下面的 User-agent 与您日志中的 User-agent 是否合乎。
爬虫辨认是一个专门辨认互联网上各种爬虫的网站,使您免受伪造爬虫和歹意爬虫的侵扰。