关于python:K哥爬虫普法百度360八年恩怨情仇robots-协议之战终落幕

2次阅读

共计 4705 个字符,预计需要花费 12 分钟才能阅读完成。

我国目前并未出台专门针对网络爬虫技术的法律标准,但在司法实际中,相干裁决已不足为奇,K 哥特设了“K 哥爬虫普法”专栏,本栏目通过对实在案例的剖析,旨在进步宽广爬虫工程师的法律意识,通晓如何非法合规利用爬虫技术,警钟长鸣,做一个违法、护法、有准则的技术人员。

前情提要

《互联网搜索引擎服务自律公约》(简称《自律公约》)系在工业和信息化部的领导下,由中国互联网协会牵头组织十二家互联网企业于 2012 年 11 月 1 日在北京举办签订,参加企业包含:百度、即刻搜寻、盘古搜寻、奇虎 360、隆重文学、搜狗、腾讯、网易、新浪、宜搜、易查有限、中搜等。该公约第七条第一款规定:遵循国内通行的行业常规与商业规定,恪守机器人协定(robots 协定)。第八条规定:互联网所有者设置机器人协定应遵循偏心、凋谢和促成信息自在流动的准则,限度搜索引擎抓取应有行业公认正当的正当理由,不利用机器人协定进行不正当竞争行为,踊跃营造激励翻新、偏心公正的良性竞争环境。

案情介绍

一审受理:2013 年 1 月 28 日、二审终判:2020 年 7 月 3 日,为期时长八年!

上诉人:

北京百度网讯科技有限公司(简称百度网讯公司)

百度在线网络技术(北京)有限公司(简称百度在线公司)

被上诉人:

北京奇虎科技有限公司(简称奇虎公司,360)

百度网讯公司和百度在线公司称,其相干网站均通过 robots 协定设置了拜访限度,其 robots 协定采取的是“白名单”制度,即只有该文件中明确列举的搜索引擎的网络机器人能力抓取百度旗下相干网站的内容,未列举的其余搜索引擎均不能抓取。2012 年 8 月 16 日,360 搜索引擎上线经营,但百度网讯公司和百度在线公司的相干网站的 robots 协定均未将 360 搜索引擎列入其“白名单”中。百度方面认为,360 搜寻在未取得百度公司容许的状况下,违反业内公认的 robots 协定,抓取百度旗下百度晓得、百度百科、百度贴吧等网站的内容,曾经形成了不正当竞争,并向奇虎索赔 1 亿元

百度方面称,奇虎公司利用 360 搜索引擎等,强行抓取网民的浏览数据和信息到搜寻服务器,齐全忽视 robots 协定,这一做法目前曾经导致大量企业内网信息被泄露。2012 年年底,百度工程师通过一个名为“鬼节捉鬼”的测试,证实了 360 浏览器存在擅自上传“孤岛页面”等隐衷内容到 360 搜寻的行为。

360 方面则认为,360 搜寻索引这些内容页面并不涉嫌进犯百度的权利,实际上还为百度带来了大量的用户和流量,百度应该感激 360。

百度公司在本案中指控奇虎公司的 360 搜寻存在以下不正当竞争行为:

  1. 忽视百度公司设置的 robots 协定,擅自抓取、复制百度网站相干页面并生成网页快照复制件存储于奇虎公司本身服务器中;
  2. 在明确得悉百度公司回绝其抓取百度网站内容后,依然持续抓取、复制百度网站内容并生成网页快照复制件存储于奇虎公司本身服务器中;
  3. 在网络用户点击 360 搜寻的搜寻后果页中来自于百度网站的链接的题目时,间接向网络用户提供其复制存储在本身服务器上的“网页快照”等,上述行为形成不正当竞争。

奇虎公司也认为百度网讯公司、百度在线公司存在不正当竞争行为,奇虎公司提交的 (2013) 京方圆内经证字第 00364 号公证书、(2013)京方圆内经证字第 06932 号公证书、(2013)京方圆内经证字第 11476 号公证书及 (2015) 京方圆内经证字第 00228 号公证书显示,自 2012 年 8 月以来,百度网讯公司、百度在线公司始终在其相干网站的 robots 协定中排除 360 搜索引擎。百度网讯公司、百度在线公司对上述事实予以认可,但认为 robots 协定是国内通行的行业常规和商业道德,容许和 / 或限度全副和 / 或特定搜索引擎抓取是 robots 协定的应有之义,百度 robots 协定的“白名单”制度仅容许特定的几家搜索引擎抓取,对除此之外的所有其余搜索引擎均不容许抓取,不存在不正当竞争行为。

奇虎公司提交的 (2013) 京方圆内经证字第 05960 号公证书显示,应用 360 搜索引擎搜寻到百度的相干网站后,在点击拜访时,会呈现拜访被阻断并跳转到百度搜索引擎网站的景象。奇虎公司认为百度采取的相干技术措施会导致网络用户在应用 360 搜索引擎时的用户体验度降落。百度网讯公司、百度在线公司对上述事实予以认可,但认为这是针对奇虎公司不恪守百度 robots 协定而采取的自力救济措施。

法院观点

百度网讯公司、百度在线公司通过设置 robots 协定的形式限度 360 搜索引擎对其相干网页的抓取与 robots 协定的初衷南辕北辙。robots 协定的初衷是为了指引搜索引擎的网络机器人更无效的抓取对网络用户有用的信息,从而更好的促成信息共享,而百度网讯公司、百度在线公司的行为会造成网络用户通过 360 搜索引擎无奈失去残缺的搜寻后果,人为设置了信息流动的阻碍。须要强调的是,360 搜索引擎属于通用搜索引擎,而通用搜索引擎的网络机器人进入一个对公众凋谢的网站抓取信息通常并不会侵害网站的利益,反而有利于其宣传推广。事实上,目前绝大多数网站对通用搜索引擎持凋谢、欢送的态度,因为如果被搜寻到,就意味着更多的网页浏览量以及由此而带来的潜在用户。也正是因为这个起因,绝大多数网站非但不会应用 robots 协定禁止通用搜索引擎抓取,反而心愿可能更快的被搜寻进去并展现在搜寻后果中较为前列的地位,这也促成了搜索引擎竞价排名等商业模式的产生。而百度网讯公司、百度在线公司却在容许国内外支流搜索引擎抓取其网页内容的状况下,限度 360 搜索引擎抓取,其行为显然 有悖于 robots 协定的初衷

就我国目前互联网搜寻行业的倒退现状来看,百度搜索引擎在市场份额上占据绝对优势,而 360 搜寻所占的市场份额较小。在这种状况下,百度网讯公司、百度在线公司通过设置 robots 协定的形式限度 360 搜索引擎对其相干网站内容的抓取,会导致网络用户在应用 360 搜索引擎时无奈及时获取所需信息,转而应用百度搜索引擎,这不仅会升高 360 搜寻的用户满意度,侵害奇虎公司的合法权益,也会在主观上加强百度搜索引擎的市场劣势位置。不难想象,如果国内各次要网站都针对某一特定的搜索引擎以设置 robots 协定的形式限度其抓取,这一搜索引擎必然无奈在市场上立足。事实上,包含互联网工程工作组在内的一些重要的国内组织回绝驳回 robots 协定作为行业标准的起因就是思考到多数行业巨头可能会利用 robots 协定自身的破绽而将其作为垄断的工具。因而,百度网讯公司、百度在线公司以设置 robots 协定的形式限度 360 搜索引擎抓取的动机 难谓正当

百度网讯公司、百度在线公司还主张其设置 robots 协定是针对奇虎公司的侵权行为而采取的自力救济措施,对此,如果网站所有者认为搜索引擎的抓取进犯了其某项具体的民事权利,该当通过相应的法律路径寻求接济,而不应以限度互联网信息流动的形式进行所谓的自力救济,故百度网讯公司、百度在线公司的主张不能成立。

法院认为:百度在线公司、百度网讯公司在不足正当、正当理由的状况下,以对网络搜索引擎经营主体区别对待的形式,限度奇虎公司的 360 搜索引擎抓取其相干网站网页内容,影响该通用搜索引擎的失常运行,侵害了奇虎公司的合法权益和相干消费者的利益,障碍了失常的互联网竞争秩序,违反公平竞争准则,且违反诚实信用准则和公认的商业道德而具备不正当性,不禁止不足以保护公平竞争的秩序,故形成反不正当竞争法第二条规定所指的不正当竞争行为。

依据第 2668 号裁决:奇虎公司的搜索引擎间接将百度公司相干网页的链接更换为该网页的网页快照链接的行为显著曾经超出了应用网页快照的正当范畴,故对于百度公司对于奇虎公司将百度公司网站的搜寻后果间接以网页快照的形式向网络用户提供的行为不当的主张予以反对。奇虎公司抵偿百度公司经济损失五十万元、正当开销二十万元。

裁决状况

  • 百度网讯公司、百度在线公司立刻进行涉案不正当竞争行为;
  • 百度网讯公司、百度在线公司于裁决失效之日起十日内连带抵偿奇虎公司经济损失二十万元;
  • 百度网讯公司、百度在线公司于裁决失效之日起三十日外在三家网站(www.360.cn,www.sina.com,www.sohu.com)首页的显著地位间断十日登载申明,就其涉案不正当竞争行为为奇虎公司打消影响;
  • 二审案件受理费四千三百元,由百度网讯公司、百度在线公司累赘;
  • 驳回奇虎公司的其余诉讼请求。

裁决文书

https://wenshu.court.gov.cn/w…

案例剖析

robots 协定也称爬虫协定、爬虫规定等,是指网站可建设一个 robots.txt 文件来通知搜索引擎哪些页面能够抓取,哪些页面不能抓取,而搜索引擎则通过读取 robots.txt 文件来辨认这个页面是否容许被抓取。然而,这个 robots 协定不是防火墙,也没有强制执行力,搜索引擎齐全能够漠视 robots.txt 文件去抓取网页的快照 如果想独自定义搜索引擎的漫游器拜访子目录时的行为,那么能够将自定的设置合并到根目录下的 robots.txt,或者应用 robots 元数据(Metadata,又称元数据)。

robots 协定并不是一个标准,而只是约定俗成的,所以并不能保障网站的隐衷,例如商品上挂个“非卖品易碎勿碰”,是通知顾客不要碰这件商品,但无奈阻止顾客拿起来看的行为,未损坏也并不守法,故俗称“小人协定”,并不具备法律效应。robots 协定的初衷并不是限度搜索引擎的网络机器人抓取信息、妨碍互联网信息流动,而是通过善意的指引使搜索引擎的网络机器人可能更无效的抓取对网络用户有用的信息,从而更好的促成信息共享。

联合本案,依据反不正当竞争法第二条第一款、第二款规定:“经营者在市场交易中,该当遵循被迫、平等、偏心、诚实信用的准则,恪守公认的商业道德。本法所称的不正当竞争,是指经营者违反本法规定,侵害其余经营者的合法权益,扰乱社会经济秩序的行为。”在网络不正当竞争纠纷中,百度网讯公司、百度在线公司通过信息网络施行反不正当竞争法未作出特地规定的竞争行为,足以侵害奇虎公司合法权益、扰乱失常的市场经营秩序,违反公平竞争准则,且违反诚实信用准则和公认的商业道德的,能够认定为反不正当竞争法第二条规定的不正当竞争行为

robots 协定有效性的认定,在适用范围上能够大抵分为两类:一类是如本案在搜索引擎范畴的实用,当 robots 协定实用搜索引擎畛域时,应恪守《互联网搜索引擎服务自律公约》规定的凋谢、平等、写作、分享的互联网精力,设置限度时应具备行业公认正当正当的理由,否则 robots 协定并不当然无效;另一类为在非搜索引擎范畴的实用,此时《互联网搜索引擎服务自律公约》则不宜再实用于整个互联网行业,对于惯例爬虫行为,在法律上并未规定为违法行为或禁止应用的行为。

现在,在中国国内互联网行业,正规的大型企业也都将 robots 协定当做一项行业标准,国内应用 robots 协定最典型的案例,就是淘宝网回绝百度搜寻(2008 年 9 月 8 日)、京东商城回绝一淘网搜寻(2011 年 10 月 25 日),相干司法案例也不足为奇:百度诉 360 案、腾讯诉字节跳动案、公众点评诉百度案等等。不过,绝大多数中小网站都须要依附搜索引擎来减少流量,因而通常并不排挤搜索引擎,也很少应用 robots 协定。

爬虫工程师们也须要留神的一点是,基于现行的常规,未被 robots 协定排除的数据属于互联网上的公开数据,任何人都有权拜访和收集。因此,遵循 robots 协定的前提下公开爬取数据原则上既不会进犯信息提供者的权力,也不会形成不正当竞争。反之,如果违反 robots 协定,强行爬取别人的数据,则可能被认定为违反诚实信用和商业道德,形成不正当竞争。

正文完
 0