关于爬虫:从315晚会个人简历泄露谈如何防范非法数据爬取

38次阅读

共计 1797 个字符,预计需要花费 5 分钟才能阅读完成。

以“提振生产,从心开始”为主题的“3·15”晚会揭发了招聘平台上的“彩色产业链”,等多家招聘平台存在重大泄露求职者简历景象,并已造成上下游产业链。

依据晚会节目曝光,不法分子一方面通过企业账户获取简历,另一方面通过各种渠道批量购买简历,由此大量的个人简历信息源源不断地流入了不法分子的黑手。各地警方已破获多起相似信息泄露的案件,在其中一个嫌疑人的一块硬盘当中,存储的这种公民简历数量就有 700 多万条。

简历不仅是个人隐私信息更是数据。通过对数据的梳理、加工、剖析、开掘,让数据蕴含的价值“活”起来,让个体的形象平面起来,不仅可能帮忙人们更好地组织和布局生产经营,更能无效地进行判断和预测。

多个行业存在非法盗取数据的行为

在数字化逐渐遍及的明天,数据是企业重要资产。非法爬取、盗用、盗取的爬取行为,不仅造成企业数字资产损失,带来间接的经济损失,更耗费了平台服务和带宽资源,影响业务衰弱倒退。

非法盗取数据背地是歹意网络爬虫,简略来说就是一个主动抓取网络数据的程序,比方搜索引擎大量应用的就是这种技术。网络爬虫技术的难度并不高,不过技术自身也没有好坏善恶的别离,而是要看技术使用者是如何去应用:什么数据能够“爬”,什么数据不该“爬”,并且是不是在用户知情和批准的状况上来“爬”,“爬”到的数据有没有很好地加密以避免被窃取。

非法盗取数据次要有以下危害:

泄露用户隐衷:非法爬取政务和企业的敏感信息,造成用户隐衷数据泄露。例如,非法盗取金融机构个人信息、招聘网站简历数据、App 或网站用户账号密码,而后进行转售牟利等。

影响业务经营:非法爬取企业业务数据,影响业务的失常经营。例如,非法爬取航空公司的航线、航班、票务数据、哄抢高价机票进行加价倒卖等。

带来资产损失:非法爬取平台独有的数据,不仅造成资产损失,用户散失,更毁坏了商业生态。例如,非法盗取视频网站内容、教育品平台课程、文学网站的小说、征询平台的报告等。

非法盗取数据的几个技术特色

非法盗取数据的歹意爬虫次要有以下几个特色:

第一、拜访的指标网页比拟集中:爬虫次要是爬取外围信息,因而只浏览拜访几个固定页面,不拜访其余页面。

第二、行为很有法则:因为爬虫是程序化操作,依照事后设定的流程进行拜访等,因而呈现出有法则、有节奏且对立的特色。

第三、同一设施上有规模化的拜访和操作:爬虫的目标是最短时间内抓取最多信息,因而同一设施会有大量离散的行为,包含拜访、浏览、查问等。

第四、拜访起源 IP 地址异样:爬虫的 IP 起源地址出现不同维度上的汇集,而且浏览、查问、购票等操作时不停变换 IP 地址。

第五、频繁应用模仿浏览器和频繁应用代理 IP:很多爬虫程序伪装成浏览器进行拜访,比方在程序头或者 UA 中默认含有相似 python-requests/2.18.4 等固定字符串;并且通过购买或者租用的云服务、革新路由器、租用 IP 代理、频繁变更代理 IP 等进行拜访。

第六、操作多集中非业务时间段:爬虫程序运行工夫多集中在无人值守阶段。此时系统监控会放松,而且平台的带宽等资源占用少,爬虫密集的批量爬取不会对带宽、接口造成影响。

企业如何防备非法盗取数据

防备非法盗取数据的要害就是无效分别爬虫行为,进而及时阻断拦挡。传统的进攻伎俩是通过 IP 和验证码进行限度,然而这两类伎俩有十分大的局限性。

通过 IP 地址进行限度:当同一 IP、同一电脑在肯定工夫内拜访网站的次数,零碎主动限度其拜访浏览等。然而,封禁 IP 的伎俩可能误伤实在用户,而且“爬虫”幕后的运营者随时可用购买或者租用的云服务、革新路由器、租用 IP 代理、频繁变更代理 IP 等办法绕过封禁的规定。

通过验证码进行限度:当某一用户拜访次数过多后,就主动让申请跳转到一个验证码页面,只有在输出正确的验证码之后能力持续拜访网站。然而设置简单的验证码会影响用户操作,给客户体验带来负面作用。

顶象反爬解决方案提供动静策略的纵深防护,防止歹意爬虫的单点绕过,提供多维度进攻,无效拦挡各种歹意爬虫危险,且不影响失常用户体验。

以某航空公司为例。在部署顶象反爬解决方案后,该航空公司的 B2C 平台上 99% 的歹意爬虫申请被间接拦挡,失常用户拜访占比进步至 90%,拜访效率进步 10 倍以上,用户体验满意度回升 21%,每年为航空公司节俭 89% 的查问开销。

顶象是一家以大规模危险实时计算技术为外围的业务平安公司,已帮忙 1400 多家企业构建自主可控的危险平安体系,实现业务可继续的增长。

正文完
 0