我国目前并未出台专门针对网络爬虫技术的法律标准,但在司法实际中,相干裁决已不足为奇,K 哥特设了“K 哥爬虫普法”专栏,本栏目通过对实在案例的剖析,旨在进步宽广爬虫工程师的法律意识,通晓如何非法合规利用爬虫技术,警钟长鸣,做一个违法、护法、有准则的技术人员。
案情介绍
2018 年 1 月至 7 月期间,呙某兴通过 SQL 注入破绽以及编写爬虫脚本的形式,侵入计算机信息零碎,获取计算机系统内存储的大量数据,其中波及到个人信息的数量约为 1500 万余条,该将其获取的个人信息通过 QQ 销售给“Versace”、“同花顺”、“FF”、“糖果”等人,从中获利约 54 万余元。
公诉机关认为,呙某兴违反国家规定,侵入计算机信息零碎,获取该计算机系统中存储的数据,情节特地重大,其行为触犯了《中华人民共和国刑法》第二百八十五条第二款,该当以非法获取计算机信息零碎数据罪追究其刑事责任。
呙某兴对被指控的罪名无异议,但辩称起诉书指控的数量有异议,其只用了 20 多万条信息;对指控的入侵形式有异议,SQL 技术不是入侵技术,爬虫技术只能获取网站页面的信息不能入侵零碎或获取数据。
供述状况
被告人呙某兴的辩护人的次要辩护意见:
1. 被告人获取计算机信息零碎数据应用的 SQL 注入破绽是常见的黑客技术,被告人所获取的信息多为网站上公开的信息,只是将 SQL 形式作为一种收集伎俩、采纳爬虫脚本具备合法性;
2. 对起诉书指控波及个人信息数量 1500 万余条有异议。获取的计算机信息零碎数据有局部有效数据、涉案信息数据存在重复性、非法获利与涉案信息数量不对应;
3. 对指控被告人获利 54 万元有异议,被告人通过爬虫脚本取得信息销售所得利益应属非法收益,应予以扣除;
4. 被告人被动交代犯罪事实,认罪悔罪态度好,立功情节较轻,违心缴纳罚金,倡议对其实用缓刑。
法院认为,被告人呙某兴违反国家规定,侵入计算机信息零碎,获取该计算机系统中存储的数据,情节特地重大,其行为已形成非法获取计算机信息零碎数据罪,公诉机关指控成立。
对于被告人及其辩护人所提对起诉书指控波及个人信息数量 1500 万余条有异议,局部计算机信息零碎系数据系有效数据且存在反复计算问题的辩解和辩护意见,本院认为,公诉机关对被告人获取的信息进行从新梳理,正当推断出 1500 万余条个人信息,可能辨认特定自然人身份或者反映特定自然人流动状况,故对该项辩解及辩护意见,本院不予驳回。
对于被告人及其辩护人所提获取计算机信息零碎数据应用的 SQL 注入破绽只是一种收集伎俩、采纳爬虫脚本具备合法性,获取的信息多为网站上公开的信息的辩解和辩护意见,本院认为,被告人应用 SQL 注入破绽以及编写爬虫脚本的形式侵入计算机信息零碎,获取计算机系统内存储的大量数据,其中波及到个人信息的数量达到约 1500 万余条,并非网站页面信息,故对该项辩解及辩护意见,本院不予驳回。
对于辩护人所提对指控被告人获利 54 万元有异议,应扣除被告人通过爬虫脚本取得的非法信息支出的辩护意见,本院认为,被告人通过编写爬虫脚本的形式非法入侵计算机信息零碎,获取计算机系统内贮存的信息并发售所得系守法支出,应计入守法所得,故对该项辩护意见,本院不予驳回。
对于辩护人所提被告人被动交代本人的犯罪事实,认罪悔罪态度好的辩护意见,本院认为,被告人辩称其应用 SQL 注入破绽以及编写爬虫脚本的形式均未入侵到计算机系统,获取的只是网站页面信息,不属于如实供述本人的罪状,故对该项辩护意见,本院不予驳回。
裁决状况
被告人呙某兴犯非法获取计算机信息零碎数据罪,判处有期徒刑五年,并处罚金人民币二万元。对被告人呙某兴守法所得人民币 54 万元依法予以追缴或责令退赔。
裁决文书全文:
https://wenshu.court.gov.cn/w…
反思总结
法院以呙某兴未经网站受权,利用特定网站的破绽,应用 SQL 注入破绽以及编写爬虫脚本的形式侵入计算机信息零碎,获取计算机系统内存储的大量数据,其中波及到个人信息的数量达到约 1500 万余条,且并非网站页面信息为由认定了该行为的非法性,咱们先来理解下 SQL 注入和网络爬虫的基本原理:
- SQL 注入:当咱们拜访动静网页时, Web 服务器会向数据拜访层发动 SQL 查问申请,如果权限验证通过就会执行 SQL 语句。这种网站外部间接发送的 SQL 申请个别不会有危险,但理论状况是很多时候须要联合用户的输出数据动静结构 SQL 语句,如果用户输出的数据被结构成歹意 SQL 代码,Web 利用又未对动静结构的 SQL 语句应用的参数进行审查,导致其传入的“数据”拼接到 SQL 语句中后,被当作 SQL 语句的一部分执行,可能会导致数据库受损(被脱库、被删除、甚至整个服务器权限陷)。
- 网络爬虫:网络爬虫又称网络蜘蛛、网络机器人,它是一种依照肯定的规定主动浏览、检索网页信息的程序或者脚本,网络爬虫可能主动申请网页,并将所须要的数据抓取下来,通过对抓取的数据进行解决,从而提取出有价值的信息,高水准者可”所见即所得“,意为只有是能看的内容就能爬取到,重点在于采集的都是失常用户能浏览到的内容。
所以侵入计算机信息零碎并不是爬虫所能做到的事,数据库层面的浸透亦或是攻打该当是通过 SQL 注入施行的,而法院将编写爬虫脚本列为呙某兴侵入计算机信息零碎的形式之一,是因为非法获取计算机信息零碎数据罪与进犯公民个人信息罪是法条竞合的关系,指一个犯罪行为同时触犯数个具备容纳关系的具体立功条文,依法只实用其中一个法条定罪量刑的状况。不论是如呙某兴辩护中所述其利用爬虫技术采集的是某些网站上公开的个人信息,亦或是利于 SQL 注入技术浸透进数据库,再利用爬虫批量采集个人信息,这都是触犯了法律的“红线”的,实践上看,爬虫作为一项网络信息搜寻技术,具备技术中立性,并未被我国现行法律所明令禁止,然而在司法实务中,“技术中立准则”的实用是有边界的,如果应用技术的人用以危害社会,利用技术手段施行犯罪行为,则不因“技术中立准则”而罢黜刑事责任,如果波及的是公民个人信息,基于特别法条优先于普通法条的准则,呙某兴的行为,实用于进犯公民个人信息罪,对于公民个人信息数据肯定要慎之又慎!
须要留神的是,一些网站会采取反爬措施,包含封 IP、封账号、JS 参数加密、代码混同、浏览器指纹、TLS 指纹、验证等,以减少爬虫程序资源的老本,更有企业踊跃开发反爬虫技术以限度网络爬虫的拜访权限,绕过网站反爬虫措施获取数据属于违反权力人志愿读取、收集数据,将有较大可能被认定为对计算机信息零碎的“侵入”,进而以非法获取计算机系统数据罪定罪处罚。对于“侵入”的了解:在以往判例中,司法机关次要基于以下两种门路断定对计算机信息零碎的“侵入”:一是无用户身份的侵入,即通过盗取、破解明码等形式进入零碎;二是超权限拜访的侵入,即具备非法用户身份,但超过本身受权范畴访问信息资源。
信息公开不等同于数据公开 ,对于爬虫工程师来说,并不需要去厘清概念背地的区别与分割,只是在业务发展中须要建立危险防备意识,贸然爬取公开可见的信息仍会存有肯定刑事危险,认真甄别所要爬取的数据类型,审慎解决蕴含公民个人信息、商业秘密等内容的信息,心愿大家凡事三思而后行,老话长谈,谨记一点, 公司是老板的,自在是本人的,法律是不容触犯的!