关于算法:浅谈活动场景下的图算法在反作弊应用

56次阅读

共计 4285 个字符,预计需要花费 11 分钟才能阅读完成。

作者 | ANTI

导读

随着反作弊与舞弊黑产反抗愈发强烈,舞弊伎俩突飞猛进,咱们也一直尝试新的办法解决新的舞弊问题。本文次要介绍在流动场景下,利用图算法解决社团类型舞弊问题。图模型不仅可能同时融入图的拓扑构造和节点的特色进行学习,而且其作为半监督模型,能够更好地利用未标注的数据,晋升召回成果。文中提到的 GCN 图模型和 SCGCN(多图串联模型)在舞弊召回方面均获得很好的成果。

全文 4102 字,预计浏览工夫 11 分钟。

01 引言

经营流动是企业保障用户增长与留存的重要伎俩,也是企业的外围竞争力之一。其次要模式包含拉新和促活,拉新是通过老用户邀请新用户的形式获取新的用户,增大用户资源池;促活即是通过做工作的流动模式晋升 DAU,减少用户粘性。举个例子,咱们平时在某 APP 上参加的做工作领红包流动便是经营流动的具体模式之一。企业通过联合本人的产品特点发展经营流动,能够达到晋升用户留存率和转化率的目标,从而进步企业收益和影响力。
百度系 APP 上也有各式各样的流动,例如「邀好友领红包」,「做工作领红包」等。然而流动中会有大量作弊者(比方网络黑产)通过舞弊伎俩获取非正当利益,影响流动营销成果。此时就须要反作弊零碎通过用户画像、用户行为、设施信息等多维度信息对黑产进行甄别,为公司的经营流动保驾护航。近年来,随着反作弊与黑产之间一直的攻防反抗,黑产的舞弊伎俩也在一直迭代降级,从大规模机刷舞弊逐步演变为众包舞弊,乃至小规模真人舞弊,这使反作弊的舞弊辨认难度也一直减少,是此,咱们须要不停的迭代新的办法对黑产进行辨认和拦挡。

02 难点

在经营流动中,以拉新流动为例。在拉新类型的流动中,邀请行为一旦产生,用户之间便会主动建设一种关联关系,这里咱们称之为「师徒关系」(邀请者视为「师父」,将被邀请者视为「师傅」)。举个例子,Pic.3 是通过「邀新」操作产生的用户关系图,咱们称下层人物为上层人物的「师父」,称上层人物为下层人物的「师傅」。图中师父能够拉新多个师傅,与此同时会取得相应处分,通常状况下师傅越多,处分越多。

△Pic.1 邀好友流动、Pic.2 国庆流动

△Pic.3 邀请流动人物关系阐明

目前,拉新场景反作弊建模面临以下两个问题:

1、短少刻画用户间分割信息的能力:流动反作弊业务目前利用模型蕴含树模型、DNN 和机器学习模型。如果咱们把用户看作节点,会发现这些模型的学习训练更关注于节点自身的特色,而短少学习节点与节点之间的关系特色的能力。在近期的几次舞弊攻打中,发现以「社团」为根本单位进行规模式攻打的舞弊模式,他们在行为以及设施信息上具备显著的共享性,作弊者之间体现出信息强关联性,咱们须要有更好的模型来学习这种「关联性」的能力。

2、样本纯度低导致召回受限:个别获取黑样本的形式是通过人工抽样评估和客诉反馈富集,白样本是按肯定的比例随机抽样取得。然而这样做存在一个不好解决的问题,即这些白样本可能混入了未知舞弊数据,会使白样本纯度升高,进而影响有监督模型的训练成果。

上面咱们介绍图模型算法能够无效解决下面两个问题。

03 图算法利用

为解决下面提出的两个业务难题,选用图神经网络模型进行业务建模。图模型的劣势在于可能同时融入了图的拓扑构造和节点的特色进行学习,不仅能够通过于节点之间建设的边关系,进行信息互联,补充模型对边关系的学习能力,从而扩充召回,而且图模型作为半监督模型,能够更好地利用未标注的数据,晋升召回成果。

3.1 图模型简介

目前罕用的图神经网络模型能够分为两大类:一类是基于图游走的办法,例如 random-walk 游走类模型;另一类是基于图卷积的办法,例如 GCN、GAT 以及 GraphSAGE 等图卷积神经网络模型。GCN 从整图的角度登程,买通了原始图构造和神经网络之间的壁垒,然而基于整图的微小计算量使其在大规模场景利用上遇到瓶颈,而从部分图角度登程的 GraphSAGE 能够肯定水平解决这个问题。另一种罕用图模型 GAT 退出了注意力机制,更多的模型参数在加强了学习能力的同时,也减少了时空复杂度,这使模型训练须要更充沛的样本信息以及计算资源。在实在业务场景中,因为样本量规模可控,所以间接选取 GCN 图算法进行训练,上面简略介绍 GCN 原理。

GCN 是一个多层的图卷积神经网络,每一个卷积层仅解决一阶邻域信息,通过叠加若干卷积层能够实现多阶邻域的信息传递。

每一个卷积层的流传规定如下 [1]:
$$H^{(l+1)}=σ(\tilde{D}^{-{\frac 1 2}}\tilde{A}\tilde{D}^{-{\frac 1 2}}H^{(l)}W^{(l)})$$
其中

  • \(\tilde{A}=A+I_{N} \)是无向图 \(G \)的邻接矩阵加上自连贯,\(I_{N} \)是单位矩阵
  • \(\tilde{D} \)是 \(\tilde{A} \)的度矩阵,即 \(\tilde{D}_{ii}=\sum_j\tilde{A}_{ij} \)
  • \(H^{(l)} \)是第 \(I \)层的激活单元矩阵,\(H^0=X \)
  • \(W^{(l)} \)是每一层的参数矩阵

邻接矩阵 \(A \)代表了节点的街坊信息的传递,单位矩阵 \(I_{N} \)代表节点本身信息的传递,正因为这样 GCN 模型既能够学习到节点自身的特色,又能够学习到其与其它节点的关联信息,将本人和街坊节点的信息汇总到一起进行训练学习。

△Pic.4 GCN 原理图

△Pic.5 举例说明

图神经网络畛域作为钻研热点之一,近年来已广泛应用到工业界的各个场景中,并获得了良好效果。

3.2 图算法利用

3.2.1 基于拉新流动舞弊场景的 GCN 召回模型

拉新流动场景建模

拉新流动场景是流动次要舞弊场景之一。以「师徒邀新场景」举例来说,如果师父用户胜利邀请师傅用户成为新用户,则师父用户和师傅用户都会取得相应的处分。黑产会应用批量虚伪师傅账号帮忙师父实现邀新行为从而取得收益。通过数据统计分析,发现这些虚伪师傅用户存在共享 IP、机型重合等景象。据此,尝试以「师父用户」作为图中根底节点,别离将「城市 + 机型」和「IP+ 机型」作为边关系进行图模型构建。

图裁剪

因为不是所有共享 IP- 机型的师父均存在舞弊信号,只保留权重大于阈值 T 的边,达到特色加强的成果。

模型成果

△table 1 模型成果比照

试验结果表明,GCN 算法效果显著,使舞弊样本召回率晋升 42.97%。

3.2.2 多图交融办法利用摸索

从以上试验中能够看出,不同的构图形式会召回不同的舞弊群体。如果将在这些群体之间差别信息交融在一起,会不会取得更多的召回呢?于是,尝试找到一种无效的形式,将不同图信息整合到同一个模型中,晋升舞弊样本召回率。沿着多图交融的思路,提出以下三种办法别离进行试验.

交融形式

edge\_union边交融
将两图交融思路是「图 A 和图 B 边混建在同一图中进行训练学习」,以这样的形式将图 A & 图 B 蕴含的信息交融到一起。

△Pic.6 edge\_union 模型

△Pic.7 edge\_union 构图形式

scgcn-split embedding特色继承

将两图交融思路是「取训练好的图 A 的 embedding 示意作为图 B 的输出特色进行训练学习」,以这样的形式将图 A & 图 B 蕴含的信息交融到一起。

△Pic.8 scgcn-split 模型

scgcn串联图合并训练

基于 scgcn-split 计划,将图 A & 图 B 串联起来同时进行训练学习。

△Pic.9 scgcn 模型

模型成果

以下是不同办法在同一数据集上的体现比照后果:

△table 2 模型成果比照

从新增召回量级上角度看,scgcn 办法最好,召回了最多的舞弊样本;edge\_union 办法体现较差,其召回量级甚至不如 GCN 单图。简略剖析起因,edge\_union 办法将不同类型的边合并到同一图构造中,在此过程中未辨别边的类型与重要性,相当于将图边同质化,由此损失了一些边信息,从试验后果上看便是损失了一部分召回。与此同时,edge\_union 模型受到半监督学习场景和样本纯度有余的限度,在节点之间减少了边连贯的同时,也有传递错误信息的危险。除以上试验外,也尝试了对 embedding 层进行 concat/max-pool/avg-pool 等图交融的办法,这些办法均存在召回损失,阐明「并行」图交融的办法无奈使模型学习到更多的信息,反而会因信息互斥效应损失召回。相同,「串行」图交融的办法显得更加无效。scgcn-split 和 scgcn 相比于单图模型均有更多的召回,尤其是 scgcn 模型,将多图参数同时进行训练,能够真正将多图信息交融到一起,召回了比单模型召回并集更多的样本。

04 总结与瞻望

相较于传统模型,图模型不仅能够获取节点信息,还能够捕获节点与节点之间的关系信息。通过于节点之间建设的边关系,进行信息互联,学习到更多的信息,从而扩充召回。在拉新流动反作弊的师徒流动场景中,通过对图算法的利用,使新增召回舞弊样本在原有舞弊样本根底上减少 50%,召回率大幅度晋升。

将来还将在以下方向进行进一步摸索:

1、从之前的工作中能够看出边关系在图模型学习中产生了重要作用,后续会对边权重进行加工学习,同时也会对节点信息进行补充,通过减少数据信息和无效特色,加强模型的召回能力。

2、随着舞弊伎俩一直降级,舞弊模式逐步由机器操作过渡到真人操作,舞弊规模放大,导致舞弊特色稠密,减少了辨认难度。后续将尝试更多的图算法,例如引入注意力机制的 GAT[2]模型,可重叠多层网络的 Deepgcn[3]模型等,以进步舞弊辨认敏感度。

——END——

参考文献

[1]Kipf, Thomas N., and Max Welling. “Semi-supervised classification with graph convolutional networks.” arXiv preprint arXiv:1609.02907 (2016).
[2]Veličković, Petar, et al. “Graph attention networks.” arXiv preprint arXiv:1710.10903 (2017).
[3]Li, Guohao, et al. “Deepgcns: Can gcns go as deep as cnns?.” Proceedings of the IEEE/CVF international conference on computer vision. 2019.

举荐浏览

Serverless:基于个性化服务画像的弹性伸缩实际

图片动画化利用中的动作合成办法

性能平台数据提速之路

采编式 AIGC 视频生产流程编排实际

百度工程师漫谈视频了解

百度工程师带你理解 Module Federation

正文完
 0