关于算法:广告流量反作弊风控中的模型应用

作者：vivo 互联网安全团队- Duan Yunxin

商业化广告流量变现，媒体侧和广告主侧的舞弊景象重大，侵害各方的利益，基于策略和算法模型的业务风控，无效保障各方的利益；算法模型可无效辨认策略无奈实现的简单舞弊模型，本文首先对广告反作弊进行简介，其次介绍风控系统中罕用算法模型，以及实战过程中具体风控算法模型的利用案例。

一、广告反作弊简介

1.1 广告流量反作弊定义

广告流量舞弊，即媒体通过多种舞弊伎俩，获取广告主的利益。

舞弊流量次要来自于：

模拟器或者被篡改了设施的广告流量；
真设施，但通过群控管制的流量；
真人真机，但诱导产生有效流量等。

1.2 常见的舞弊行为

机器行为: IP反复刷量、换不同IP反复刷量，流量劫持，换不同imei反复刷量等。
人工行为：素材交互因素诱导点击，媒体渲染文案诱导点击，忽然弹出误触点击等。

1.3 常见舞弊类型

依照广告投放流程程序

展现舞弊：媒体将多个展现广告同时曝光于同一个广告位，向广告主收取多个广告的展现费用。
点击舞弊：通过脚本或计算机程序模仿真人用户，又或者雇佣和激励诱导用户进行点击，生成大量无用广告点击，获取广告主的CPC广告估算。
装置舞弊：通过测试机或模拟器模仿下载，以及通过挪动人工或者技术手段批改设施信息、SDK形式发送虚构信息、模仿下载等等。

二、广告流量反作弊算法体系

2.1 算法模型在业务风控中利用背景

智能风控，使用大量行为数据构建模型，对危险进行辨认和感知监控，相比规定策略，显著晋升辨认的准确性和覆盖率以及稳定性。

常见的无监督算法：

密度聚类(DBSCAN)
孤立森林(Isolation Forest)
K均值算法

常见有监督算法：

逻辑回归(logistic)
随机森林 (random forest)

2.2 广告流量模型算法体系

体系分四层：

平台层：次要是依靠spark-ml/tensorflow/torch算法框架根底上，援用开源以及自定义开发的算法利用于业务风控建模中。
数据层：搭建vaid/ip/媒体/广告位等多粒度下，申请、曝光、点击、下载、激活等多转化流程的画像和特色体系，服务于算法建模。
业务模型层：基于行为数据特色和画像数据，搭建点击反作弊审计模型、申请点击危险预估模型、媒体行为类似团伙模型以及媒体粒度异样感知等模型。
接入层：模型数据的利用，离线点击反作弊模型审计后果与策略辨认审计后果汇总，同步业务上游处罚；媒体异样感知模型次要作为候选名单同步点检平台和自动化巡检进行。

三、算法模型利用案例

3.1 素材交互诱导感知

背景：广告素材中增加虚构的X敞开按钮，导致用户敞开广告时点击的虚伪的X按钮，导致有效的点击流量，同时影响用户体验；左图是投放的原始素材，右侧是用户点击的坐标绘制热力求，虚构X导致用户敞开广告时产生有效的点击流量。

模型辨认感知：

1、密度聚类(DBSCAN)：

先定义几个概念：

邻域：对于任意给定样本x和间隔ε，x的ε邻域是指到x间隔不超过ε的样本的汇合;
外围对象：若样本x的ε邻域内至多蕴含minPts个样本，则x是一个外围对象;
密度中转：若样本b在a的ε邻域内，且a是外围对象，则称样本b由样本x密度中转;
密度可达：对于样本a，b，如果存在样例p1，p2，…，pn，其中，p1=a，pn=b，且序列中每一个样本都与它的前一个样本密度中转，则称样本a与b密度可达;
密度相连：对于样本a和b，若存在样本k使得a与k密度可达，且k与b密度可达，则a与b密度相连；
所定义的簇概念为：由密度可达关系导出的最大密度相连的样本汇合，即为最终聚类的一个簇。

2、利用算法对诱导误触广告感知：

① 首先依照分辨率和广告位，对点击数据进行分组，筛选过滤掉量级较小的群组；

② 对每个群组，应用密度聚类算法进行聚类，设置邻域密度阈值为10，半径ε=5，进行聚类训练；

③ 对每个群组，密度聚类后，过滤掉簇面积较小的簇，具体训练代码如下：

④ 成果监控和打击，针对开掘的簇，关联点击后向指标，针对异样转化指标广告位，进行复检，并对复检有问题广告位进行处理。

3.2 点击反作弊模型

3.2.1 背景

针对广告的点击环节建设舞弊点击辨认模型，晋升反作弊审计笼罩能力，发现高纬度暗藏的舞弊行为、无效补充点击场景的策略反作弊审计。

3.2.2 建设流程

（1）特色建设

基于token粒度，计算事件产生前，设施、ip、媒体、广告位的等粒度特色。

频率特色：在过来1分钟，5分钟，30分钟、1小时、1天，7天等工夫窗口的曝光，点击、装置行为特色、即对应的均值、方差、离散度等特色；

根本属性特色：媒体类型，广告类型，设施合法性、ip类型，网络类型，设施价值等级等。

2、模型训练和成果

① 样本抉择：

样本平衡解决：线上舞弊样本和非舞弊样本非均衡，采纳对非舞弊样本下采样形式，使得舞弊和非舞弊样本量达到平衡(1:1)
鲁棒性样本选取：线上非舞弊样本量级大，且群体行为多样性且散布不均等，为了小样本训练上线后笼罩所有行为模式，
应用K-means算法：针对线上非舞弊样本进行分群，而后对每个群体依照占比再下采样，取得训练的非舞弊样本。

② 特色预处理：

统计每个特色缺失率，去掉缺失率大于50%的特色；
特色贡献度筛选，计算每个特色对预测标签Y的区分度，过滤掉贡献度低于0.001的特色；
特色稳定性筛选，在模型上线前，选取最大和最小时间段的样本，计算两个时间段每个特色的PSI值，过滤掉PSI值(Population Stability Index)大于0.2的特色，保留稳定性较好的特色。

③ 模型训练：

采纳随机森林算法，对点击广告舞弊行为进行分类，随机森林有较多劣势，比方：

（1）能解决很高维度的数据并且不必做特征选择；

（2）对泛化误差(Generalization Error)应用的是无偏预计，模型泛化能力强；

（3）训练速度快，容易做成并行化办法(训练时树与树之间是互相独立的)；

（4）抗过拟合能力比拟强；

超参数搜寻优化，应用ParamGridBuilder，配置max_depth(树最大深度),numTrees(树的个数)等超参数的进行搜寻优化最优超参数。

④ 模型稳定性监控：

模型上线后，如果特色随着工夫迁徙，推理工夫的特色与训练工夫的特色散布存在变动差别，须要对模型稳定性监控并迭代更新；

首先对以后版本训练样本进行存档，计算推理工夫的数据和训练工夫数据的对应每个特色的PSI值，计算的PSI值(Population Stability Index)每天可视化监控告警。

⑤ 模型可解释性监控：

模型上线后，为了更直观的定位命中模型危险的起因，对推理数据进行可解释性监控；即对每条数据，计算其对预测标签的影响水平；

采纳Shapley值(Shapley Additive explanation)解释特色如何影响模型的输入，计算shap值输入到可视化平台，日常经营剖析应用。

3.3 点击序列异样检测

3.3.1 背景

通过用户小时点击量序列，开掘歹意行为对应的设施，开掘检测远离占绝大多数失常行为外的异样模式用户群体、比方只有凌晨0~6点有低频的其余工夫没点击行为的异样群体、或者每小时平衡点击的行为等异样模式用户等。

3.3.2 建设流程

（1）特色建设

以设施作为用户，统计过来1/7/30天，每小时的点击量，造成1*24小时、7*24小时、30*24小时点击量序列，构建的特色具备时间尺度上特色齐备性和每个特色数据间断条件，实用于异样检测算法。

（2）模型抉择

孤立森林离群点检测算法，算法基于两个实践假如，即异样数据占总样本量的比例很小，异样点的特征值与失常点的差别很大。

检测散布稠密且离密度高的群体较远的点，比方下图能够直观的看到，绝对更异样Xo的只须要4次切割就从整体中被分离出来，即被‘孤立’了，而更加失常的Xi点通过了11次宰割才从整体中分离出来。

（3）模型训练

应用IsolationForest算法，为了更好笼罩，针对多种粒度流量进行异样检测训练。

①全平台流量，训练异样感知模型，设置异样样本比例contamination=0.05；

②每类媒体类型的流量，训练异样感知模型，设置异样样本比例contamination=0.1；

③每种广告位类型流量，训练异样感知模型，设置异样样本比例contamination=0.1。

（4）感知监控

异样得分定义：如果异样得分靠近 1，那么肯定是异样点，如果异样得分远小于 0.5，肯定不是异样点；
异样筛选：筛选异样得分大于0.7的用户作为高风险人群，介于0.5~0.7的人群作为中危险人群，对高中危险人群，同步审计平台人工二次审计；
案例剖析：

案例①

2022年XX月XX号， 7*24小时点击量异样检测，可疑歹意用户A ，过来7天大部分工夫，每小时平衡产生较多点击记录远超失常用户。

(备注：features中每个点代表用户一个小时的点击量）

案例②

2022年XX月XX号，1*24小时点击量序列异样检测，可疑歹意用户B，根本只在凌晨产生点击，其余白天根本无点击行为。

四、总结

在流量反作弊畛域，随着反抗伎俩的降级，算法模型能更好发现和开掘黑产的暗藏的舞弊模式；在广告流量反作弊畛域，咱们应用有监督和无监督等算法模型，从舞弊流量辨认，异样流量感知方面做了摸索开掘利用，无效晋升辨认能力，开掘发现较简单的异样行为模式。将来算法模型在机器流量辨认上更多摸索实际利用。

关于算法:广告流量反作弊风控中的模型应用

一、广告反作弊简介

1.1 广告流量反作弊定义

1.2 常见的舞弊行为

1.3 常见舞弊类型

二、广告流量反作弊算法体系

2.1 算法模型在业务风控中利用背景

2.2 广告流量模型算法体系

三、算法模型利用案例

3.1 素材交互诱导感知

3.2 点击反作弊模型

3.2.1 背景

3.2.2 建设流程

3.3 点击序列异样检测

3.3.1 背景

3.3.2 建设流程

四、总结

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于算法:广告流量反作弊风控中的模型应用

一、广告反作弊简介

1.1 广告流量反作弊定义

1.2 常见的舞弊行为

1.3 常见舞弊类型

二、广告流量反作弊算法体系

2.1 算法模型在业务风控中利用背景

2.2 广告流量模型算法体系

三、算法模型利用案例

3.1 素材交互诱导感知

3.2 点击反作弊模型

3.2.1 背景

3.2.2 建设流程

3.3 点击序列异样检测

3.3.1 背景

3.3.2 建设流程

四、总结

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复