关于后端:图谱相关技术在风控反作弊中的应用和探索

64次阅读

共计 4817 个字符,预计需要花费 13 分钟才能阅读完成。

‍‍

导读 :互联网黑产一直发展壮大,舞弊模式逐步变得规模化、产业化,团伙舞弊行为日益猖狂。为了进一步晋升百度账号的平安和用户体验,保护公司外围利益,百度账号安全策略团队联合本身在账号平安畛域的劣势,构建了能够解决海量数据、具备丰盛扩展性的关联图谱黑产团伙开掘能力,充沛实际利用并一直拓展落地场景,同时也在图神经网络等前沿畛域摸索相干技术在风控反作弊场景中的利用价值,致力于构建高效、齐备的基于图谱的风控反作弊能力。

全文 3770 字,预计浏览工夫 14 分钟。

一、简介

《中国互联网络倒退情况统计报告》显示,截止 2021 年 6 月,中国网民规模达到了 10.11 亿。基于如此宏大的用户群体,使得互联网业务一直飞速发展。围绕着一直成长的互联网生态,自然而然也就催生出了一系列躲藏在隐秘角落里的黑灰产业务。随着技术的提高倒退,黑灰产从最后的作坊式的舞弊形式也转变成了流程化、规模化、产业化舞弊模式,目前网络黑灰产规模也已超千亿,并且曾经深刻到多种业务场景进行舞弊,首当其冲的即是账号零碎,接着进入到具体业务场景,从事刷单、薅羊毛、引流、欺骗、洗钱等等欺诈舞弊行为。黑灰产行为不仅使互联网公司遭受金钱损失,长此以往更会影响用户的服务体验和财产平安,威逼到业务继续衰弱倒退。

为了无效打击黑产舞弊团伙,保障公司的根底平安,安全策略团队从账号维度登程,踊跃构建基于图谱的反黑产舞弊架构,一直摸索图谱相干技术在风控反作弊场景的利用落地。目前基于图谱技术构建了次要包含团伙开掘能力、图谱节点示意能力。

二、团伙开掘

家喻户晓,在理论业务场景下的黑产舞弊团伙通常受限于资源、老本等事实条件,往往会呈现共用资源的状况。这就成了开掘黑产团伙动手的点,传统的办法是:能够通过统计特色因子筛选形式来筛选出一部分相干的账号,但这种办法很难进一步挖掘出整个相干的舞弊团伙,只能 case by case 的解决这种问题。上面比照了传统伎俩与根底的关联图谱开掘舞弊团伙的差别(案例相干数据已做脱敏解决):

图 -__1 案例__剖析

如图 - 1 左侧所示,图表中能够看出该案例账号应用过相当数量的特色因子和一个设施,这些关系转变为图构造即是图片右侧的图谱构造(账号:蓝色标记,特色因子:红色标记,设施:绿色标记)。通过这些关联因子进行开掘,能够失去一批应用过这些可疑因子的账号,这其实也是图谱团伙开掘的核心思想,然而想要通过这种办法挖掘出整个团伙却须要消耗大量工夫。事实上,如图 - 2 所示,该帐号只是整个黑产团伙中的冰山一角,传统办法开掘的难度可想而知。

图 -2 案例所属团伙

上述的例子展示了关联图谱在团伙开掘中的劣势。联合现有业务场景,团队构建了笼罩不同场景、不同粒度(天、周、月)、不同特色关系类型(同构图、异构图)相结合的关联图谱框架,波及到了多种不同类型的节点、多种简单边关系特色。关联图谱框架如图 - 3 所示。

图 -3 关联图谱基础架构

理论生产环境中的图谱都要解决几十亿节点和边数据,这是一个微小的挑战,通过从新设计优化整个算法计算流程,该架构可能解决海量的数据并且具备丰盛的扩展性,通过简略配置即能够开掘不同异构状况下的团伙,也反对拓展新业务场景,通过跨场景的交融,在原有业务数据的根底上联合账号零碎特有的账号平安信息,能够更全面开掘剖析黑产团伙。此外,利用关联图谱进行 CASE 剖析扩召的能力也曾经落地到理论业务中了。

理论业务中,应用关联图谱进行团伙开掘能够找出 CASE 相干的可疑团伙,也能够监控业务中呈现的异样团伙舞弊行为,在新接入的业务场景中,通过关联图谱开掘进去的可疑团伙都存在不同水平的团伙舞弊行为。然而,新的技术也会带来一些新的挑战,正是因为基于特色的关联关系即绑定将不同账号进行绑定,这也使得账号之间的相关性并不可靠,往往会存在以下一些问题:

  1. 通过设施信息等硬关联关系关联出的团伙也并非肯定都是黑产舞弊团伙,一般账号也可能存在共用设施、应用公共网络等状况,并不是关联出开掘失去的所有团伙都是黑产团伙,所以须要对团伙进行分类定性;
  2. 理论业务中会因为脏数据、长时间跨度、黑产团伙间资源穿插、账号交易等因素而产生规模微小的团伙图谱,团伙图谱中可能会蕴含一些失常账号或者不同团伙的账号;

因而,也就有了更多的图谱相干的实际和摸索。

三、团伙节点示意

针对关联图谱中所存在的问题,尽管有些能够通过一些条件限度、定义权重等进行过滤来减缓上述问题对整个关联图谱的影响,然而,这种一刀切的做法对于解决简单边关系、多种节点类型的图谱很难做到恰到好处。因而,也就有了对于图谱技术更深刻的摸索——团伙中节点的示意。

节点示意,行将单个账号节点的特色信息通过深度学习的办法形象为一个固定维度的向量,这个向量就示意这个账号,通过将账号特征向量化后,能够进一步做更多的上游工作,比方:节点间相关性的预测、节点的聚类、节点的分类等等。而图谱中的节点示意,不仅仅只思考了该账号节点自身的特色信息,更蕴含了账号节点所处图谱中的构造信息,次要是节点的街坊信息和边关系信息。

团队调研了多种节点示意模型的办法,比方:Deepwalk[1]、LINE[2]、node2vec[3] 等基于随机游走的办法,也包含 GCN[4]、GAT[5]、GraphSAGE[6]、PinSAGE[7] 等办法。

联合账号业务场景账号特色稠密、节点规模宏大且没有显式标签的特点,所以通过链接预测工作来训练节点示意模型,思考到整个数据的量级以及动态变化的问题,改良了 GraphSAGE 模型用于节点间链接预测,首先对指标节点进行基于随机游走的部分采样失去其街坊节点,通过两层 GraphSAGE 构造聚合指标节点两跳的街坊信息,联合两指标节点的示意向量穿插失去预测后果。通过半监督学习的形式,应用穿插熵作为损失函数,联合 mini-batch 的训练形式训练模型。模型架构如下图 - 4 所示。

图 -4 链接预测框架

如公式(1)所示模型输出的节点特色,此外还须要指标节点的子图构造和指标节点关系对。通过公式(2-4)是模型第层节点交融其街坊节点的过程。

模型通过生成指标节点关系对的示意向量做点积失去最终的链接预测后果,通过随机梯度降落优化模型参数。即公式(5)所示。

score = \sigma(e\_i \bullet e\_j), (5)

为了进行比照,同时实现了 MLP、GCN 进行向量示意的根底模型,雷同超参数的条件下,别离生成了同一组账号的示意向量,为了直观展现模型生成示意向量的辨别性,这里选取关联图谱中账号节点所属的 TOP25 团伙的节点,其节点编号作为色彩标签,别离通过 T -SNE、UMAP 降维进行可视化比照,T-SNE 可视化后果如下。图 - 5 是基于 GraphSAGE-sum 生成的节点示意向量的 T -SNE 降维后的三维空间散布,相比图 - 6 和图 - 7 别离是基于 MLP 和 GCN 生成节点示意向量的三维散布,能够看出 GraphSAGE-sum 节点示意向量的辨别性显著优于其余,雷同色彩编号的属于同一团伙(因为应用的关联图谱中的团伙标签作为参考,图中可能存在不同标签的团伙理论是同一团伙,即不同色彩编号产生重叠),GraphSAGE 图中各团伙色彩标签雷同的汇集更加紧凑,不同的团伙辨别较为显著,产生色彩标签重叠的团伙也更少。(注:团伙标签过多,色彩无限,须要联合色彩和标签编号独特辨别不同团伙)

图 -5 基于 GraphSAGE 生成的节点示意 T -SNE 降维展现

图 -6 基于 MLP 生成的节点示意 T -SNE 降维展现

图 - 7 基于 GCN 生成的节点示意 T -SNE 降维展现

在失去节点示意模型后,基于此能够进行多种上游工作的利用,包含节点间相关性的预测、节点分类、生成团伙的示意向量、节点聚类等等。以理论业务中的团伙定性需要为例,相比只应用根底账号维度特色统计的 XGboost 分类模型,模型进一步减少节点示意向量特色后,其初步测试分类成果达到了 90+% 的程度,置信通过全量团伙数据的训练,模型理论的团伙分类定性成果会失去进一步晋升。

四、瞻望

本文介绍了图谱相干技术在风控反作弊中的实际和摸索,有些曾经落地利用并获得了很好的成果,相应的也或多或少存在一些问题须要进一步解决探讨。

  1. 针对关联图谱中存在的特大团伙和团伙定性问题,能够基于节点示意模型设计什么样的上游工作;
  2. 节点示意模型目前受 GPU 限度比拟大,如何能高效产出图谱中节点示意向量,以及如何进一步晋升模型的泛化成果;

整个基于图谱技术的风控反作弊框架还须要不断完善,不仅仅以上提到的技术能力,还有更多技术须要进行深刻摸索、钻研和落地利用。比方图采样技术、图示意能力、图的可视化、实时的图解决能力等等。

参考文献:

[1] Perozzi B, Al-Rfou R, Skiena S. Deepwalk: Online learning of social representations[C]//Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. 2014: 701-710.

[2] Tang J, Qu M, Wang M, et al. Line: Large-scale information network embedding[C]//Proceedings of the 24th international conference on world wide web. 2015: 1067-1077.

[3] Grover A, Leskovec J. node2vec: Scalable feature learning for networks[C]//Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. 2016: 855-864.

[4] Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks[J]. arXiv preprint arXiv:1609.02907, 2016.

[5] Veličković P, Cucurull G, Casanova A, et al. Graph attention networks[J]. arXiv preprint arXiv:1710.10903, 2017.

[6] Hamilton W L, Ying R, Leskovec J. Inductive representation learning on large graphs[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. 2017: 1025-1035.

[7] Ying R, He R, Chen K, et al. Graph convolutional neural networks for web-scale recommender systems[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018: 974-983.

[8] Chen T, He T, Benesty M, et al. Xgboost: extreme gradient boosting[J]. R package version 0.4-2, 2015, 1(4): 1-4.


举荐浏览:

|难看视频 Android 重构——围绕于播放器的重构实际

|浅谈百度浏览 / 文库 NA 端排版技术

|云原生架构下的继续交付实际

|一年数十万次试验背地的架构与数据迷信

———- END ———-

百度 Geek 说

百度官网技术公众号上线啦!

技术干货 · 行业资讯 · 线上沙龙 · 行业大会

招聘信息 · 内推信息 · 技术书籍 · 百度周边

欢送各位同学关注

正文完
 0