乐趣区

关于python:k哥爬虫普法简历大数据公司被查封个人隐私是红线

我国目前并未出台专门针对网络爬虫技术的法律标准,但在司法实际中,相干裁决已不足为奇,K 哥特设了“K 哥爬虫普法”专栏,本栏目通过对实在案例的剖析,旨在进步宽广爬虫工程师的法律意识,通晓如何非法合规利用爬虫技术,警钟长鸣,做一个违法、护法、有准则的技术人员。

案情介绍

2018 年 10 月,北京市公安局海淀分局警务声援大队接到辖区某互联网公司报案称,发现有人在互联网上抛售疑似为该公司的用户信息。依据这条线索,警方迅速开展调查,巧达科技(北京)有限公司非法窃取信息的犯罪事实逐步浮出水面。2019 年 3 月,巧达科技被查封,涉案员工被警方依法刑事拘留。目前还没有从公开数据中查到此案件的裁决文书。

警方查明,与正规招聘网站的简历由用户本人上传不同,巧达科技的简历数据库全副是通过非法手段爬取而来。“嫌疑人通过利用大量代理 IP 地址、伪造设施标识等技术手段,绕过招聘网站服务器防护策略,窃取寄存在服务器上的用户数据。”网安总队办案民警李文涛说,从不同网站窃取来的信息被从新合并、排列,重名或是信息不全的信息通过“再比对”后造成残缺的简历和用户画像。

针对爬虫获取简历的伎俩,一位巧达科技前员工通知燃财经,巧达在智联、猎聘等网站上,建设了上千个企业账户,每天拜访智联、猎聘的网站次数百万次,都是机器在模仿人工操作。这位员工称,他去年来到巧达之前,巧达仍然在用爬虫伎俩获取简历。

据悉,巧达科技非法获取的简历超过 2 亿条。基于这些数据,公司开发了“72 招浏览器”,将其简历数据库以 13800 元每年的价格卖给有需要的企业客户,客户就能够在浏览器上间接调取简历信息。

办案民警介绍,在巧达科技窃取数据过程中,还因传输数据量过大导致报案公司服务器数十次中断服务,影响上千万用户失常拜访,带来重大的经济损失。

据网络上裸露的一份巧达数据给客户的商务单干 BP(商业计划书)。这份文件声称:巧达科技旗下有 38 个 B 端招聘产品、超过 170 万招聘者用户,巧达科技数据库有 2.2 亿自然人的简历、简历累计总数 37 亿份。此外,巧达科技还有超过 10 亿份通讯录,并且把握着与此相关的社会关系、组织关系、家庭关系数据。联合简历、通讯录,以及内部获取的超过千亿条其余用户数据,巧达科技自称领有超过 8 亿自然人的认知数据。也就是说,超过 57% 的中国人的信息都在巧达科技的数据库外面。

依据文件介绍,巧达科技将这些数据用在教培、保险、招聘等行业,某大型地产公司、某职业教育培训机构、某分类信息网站和几家招聘网站在这份文件里被列为典型案例。数据生意为巧达科技带来了大量支出。2016 年,巧达科技全年收入 1.2 亿元,净利润 4800 万元;2017 年,巧达科技全年收入 4.11 亿元,净利润 1.86 亿元,净利润率超过 45%。

此外,这份商业计划书中独自有 5 页来讲述业务合规性,其中展现了数据的获取来源于 3 个路径,巧达科技自称都是非法获得:

1,自有招聘网站:求职者用户间接受权,包含简历中敏感数据和非敏感数据;

2,招聘工具产品:HR/ 猎头用户受权,包含简历中敏感数据和非敏感数据;

3,第三方数据源:合作方受权,包含用户 ID 组合,通讯录,行为标签和偏好画像。

取得数据后,巧达科技将简历中敏感数据、用户 ID 组合、通讯录进行 MD5 脱敏,以及简历中非敏感数据、行为标签、偏好画像,一并放入数据库中。数据通过建模计算,联合用户的认知引擎,最初提供给客户。

巧达科技提供的多项服务都指向用户集体,不论是通过自有渠道还是第三方渠道,没有通过用户批准和违反用户志愿的数据交易,都属于擅自利用用户信息并可能进犯隐衷。

反思总结

咱们晓得招聘网站,普通用户是无奈查看别人简历的,所以巧达科技建设了上千个企业账户,通过企业账户能看到投递人或网站上全量求职者的残缺简历,这很失常,也齐全非法,重点在于巧达科技通过爬虫技术应用几千个企业账户大批量检索并获取招聘网站上的简历数据,并未经求职者自己批准,将原始数据及其多项未经受权的关联数据合并加工后对第三方凋谢交易且获取巨额利润

此业务的非法前提:一是,要有求职者自己的受权,即使巧达科技是通过自有招聘入口非法获取求职者的简历,应用用户信息也必须限于求职者投递简历的目标范畴之内。超过为求职者间接举荐工作机会之外的行为都是违反用户志愿,属于擅自利用用户信息并进犯用户隐衷。

二是,巧达科技是从第三方获取求职者的简历数据,第三方既要非法取得求职者的简历,同时须要获得求职者对公开和转售简历的许可,这两个条件不足其一都会导致其获取、购买和再利用求职者简历数据的行为不具备合法性。

咱们还留神到,在巧达科技获取数据过程中,还因爬取的数据量过大导致报案公司的服务器数十次中断服务,影响上千万用户失常拜访,带来重大的经济损失,这和 K 哥后期的案例《【k 哥爬虫普法】程序员 183 并发爬取官方网站,间接获刑 3 年?》中介绍的一样,外面的反思总结同样实用于本案例。

个人用户的隐衷数据碰不得,这句话曾经说了千百遍了,更何况 求职者简历中蕴含了大量的集体和曾任职企业的隐衷和商业信息。理解规定,敬畏法律,利用爬虫技术获取信息,应该严格遵守相干法律、行政法规、部门规章的规定,否则极易落入“非法获取”公民个人信息的法律危险领域。

还值得一提的是,相似智联、猎聘、boss 直聘等波及到求职者个人隐私信息的平台,该当器重对客户信息的爱护工作,boss 直聘前段时间因某些起因还被审查过。对于求职者个人用户信息的下载、获取,该当设置严格的权限,对于企业客户的注册该当严格审查,对于后盾大量获取简历的行为该当做好严格监控和反制,官网理当及时染指解决。巧达科技之所以可能在这些平台建设上千个企业账户胡作非为的大批量检索、爬取、下载简历,无疑和平台的监管机制缺漏脱不了关系。

退出移动版