关于算法:广告流量反作弊风控中的模型应用

4次阅读

共计 3781 个字符,预计需要花费 10 分钟才能阅读完成。

作者:vivo 互联网安全团队 - Duan Yunxin

商业化广告流量变现,媒体侧和广告主侧的舞弊景象重大,侵害各方的利益,基于策略和算法模型的业务风控,无效保障各方的利益;算法模型可无效辨认策略无奈实现的简单舞弊模型,本文首先对广告反作弊进行简介,其次介绍风控系统中罕用算法模型,以及实战过程中具体风控算法模型的利用案例。

一、广告反作弊简介

1.1  广告流量反作弊定义

广告流量舞弊,即媒体通过多种舞弊伎俩,获取广告主的利益。

舞弊流量次要来自于:

  • 模拟器或者被篡改了设施的广告流量;
  • 真设施,但通过群控管制的流量;
  • 真人真机,但诱导产生有效流量等。

1.2  常见的舞弊行为

  • 机器行为:   IP 反复刷量、换不同 IP 反复刷量,流量劫持,换不同 imei 反复刷量等。
  • 人工行为:素材交互因素诱导点击,媒体渲染文案诱导点击,忽然弹出误触点击等。

1.3  常见舞弊类型

依照广告投放流程程序

  • 展现舞弊:媒体将多个展现广告同时曝光于同一个广告位,向广告主收取多个广告的展现费用。
  • 点击舞弊:通过脚本或计算机程序模仿真人用户,又或者雇佣和激励诱导用户进行点击,生成大量无用广告点击,获取广告主的 CPC 广告估算。
  • 装置舞弊:通过测试机或模拟器模仿下载,以及通过挪动人工或者技术手段批改设施信息、SDK 形式发送虚构信息、模仿下载等等。

二、广告流量反作弊算法体系

2.1 算法模型在业务风控中利用背景

智能风控,使用大量行为数据构建模型,对危险进行辨认和感知监控,相比规定策略,显著晋升辨认的准确性和覆盖率以及稳定性。

常见的无监督算法:

  • 密度聚类(DBSCAN)
  • 孤立森林(Isolation Forest)
  • K 均值算法

常见有监督算法:

  • 逻辑回归(logistic)
  • 随机森林 (random forest) 

2.2 广告流量模型算法体系

体系分四层:

  • 平台层:次要是依靠 spark-ml/tensorflow/torch 算法框架根底上,援用开源以及自定义开发的算法利用于业务风控建模中。
  • 数据层:搭建 vaid/ip/ 媒体 / 广告位等多粒度下,申请、曝光、点击、下载、激活等多转化流程的画像和特色体系,服务于算法建模。
  • 业务模型层:基于行为数据特色和画像数据,搭建点击反作弊审计模型、申请点击危险预估模型、媒体行为类似团伙模型以及媒体粒度异样感知等模型。
  • 接入层:模型数据的利用,离线点击反作弊模型审计后果与策略辨认审计后果汇总,同步业务上游处罚;媒体异样感知模型次要作为候选名单同步点检平台和自动化巡检进行。

三、算法模型利用案例

3.1 素材交互诱导感知

背景:广告素材中增加虚构的 X 敞开按钮,导致用户敞开广告时点击的虚伪的 X 按钮,导致有效的点击流量,同时影响用户体验;左图是投放的原始素材,右侧是用户点击的坐标绘制热力求,虚构 X 导致用户敞开广告时产生有效的点击流量。

模型辨认感知:

1、密度聚类(DBSCAN):

先定义几个 概念

  • 邻域:对于任意给定样本 x 和间隔 ε,x 的 ε 邻域是指到 x 间隔不超过 ε 的样本的汇合;
  • 外围对象:若样本 x 的 ε 邻域内至多蕴含 minPts 个样本,则 x 是一个外围对象;
  • 密度中转:若样本 b 在 a 的 ε 邻域内,且 a 是外围对象,则称样本 b 由样本 x 密度中转;
  • 密度可达:对于样本 a,b,如果存在样例 p1,p2,…,pn,其中,p1=a,pn=b,且序列中每一个样本都与它的前一个样本密度中转,则称样本 a 与 b 密度可达;
  • 密度相连:对于样本 a 和 b,若存在样本 k 使得 a 与 k 密度可达,且 k 与 b 密度可达,则 a 与 b 密度相连;
  • 所定义的簇概念为:由密度可达关系导出的最大密度相连的样本汇合,即为最终聚类的一个簇。

2、利用算法对诱导误触广告感知:

① 首先依照分辨率和广告位,对点击数据进行分组,筛选过滤掉量级较小的群组;

② 对每个群组,应用密度聚类算法进行聚类,设置邻域密度阈值为 10,半径 ε =5,进行聚类训练;

③ 对每个群组,密度聚类后,过滤掉簇面积较小的簇,具体训练代码如下:

④ 成果监控和打击,针对开掘的簇,关联点击后向指标,针对异样转化指标广告位,进行复检,并对复检有问题广告位进行处理。

3.2 点击反作弊模型

3.2.1 背景

针对广告的点击环节建设舞弊点击辨认模型,晋升反作弊审计笼罩能力,发现高纬度暗藏的舞弊行为、无效补充点击场景的策略反作弊审计。

3.2.2 建设流程

(1)特色建设

基于 token 粒度,计算事件产生前,设施、ip、媒体、广告位的等粒度特色。

频率特色:在过来 1 分钟,5 分钟,30 分钟、1 小时、1 天,7 天等工夫窗口的曝光,点击、装置行为特色、即对应的均值、方差、离散度等特色;

根本属性特色:媒体类型,广告类型,设施合法性、ip 类型,网络类型,设施价值等级等。

 2、模型训练和成果

① 样本抉择:

  • 样本平衡解决:线上舞弊样本和非舞弊样本非均衡,采纳对非舞弊样本下采样形式,使得舞弊和非舞弊样本量达到平衡(1:1) 
  • 鲁棒性样本选取:线上非舞弊样本量级大,且群体行为多样性且散布不均等,为了小样本训练上线后笼罩所有行为模式,
  • 应用 K -means 算法:针对线上非舞弊样本进行分群,而后对每个群体依照占比再下采样,取得训练的非舞弊样本。

② 特色预处理:

  • 统计每个特色缺失率,去掉缺失率大于 50% 的特色;
  • 特色贡献度筛选,计算每个特色对预测标签 Y 的区分度,过滤掉贡献度低于 0.001 的特色;
  • 特色稳定性筛选,在模型上线前,选取最大和最小时间段的样本,计算两个时间段每个特色的 PSI 值,过滤掉 PSI 值 (Population Stability Index) 大于 0.2 的特色,保留稳定性较好的特色。

③ 模型训练:

采纳随机森林算法,对点击广告舞弊行为进行分类,随机森林有较多劣势,比方:

(1)能解决很高维度的数据并且不必做特征选择;

(2)对泛化误差 (Generalization Error) 应用的是无偏预计,模型泛化能力强;

(3)训练速度快,容易做成并行化办法(训练时树与树之间是互相独立的);

(4)抗过拟合能力比拟强;

超参数搜寻优化,应用 ParamGridBuilder,配置 max_depth(树最大深度),numTrees(树的个数)等超参数的进行搜寻优化最优超参数。

④ 模型稳定性监控:

模型上线后,如果特色随着工夫迁徙,推理工夫的特色与训练工夫的特色散布存在变动差别,须要对模型稳定性监控并迭代更新;

首先对以后版本训练样本进行存档,计算推理工夫的数据和训练工夫数据的对应每个特色的 PSI 值,计算的 PSI 值 (Population Stability Index) 每天可视化监控告警。

⑤ 模型可解释性监控:

模型上线后,为了更直观的定位命中模型危险的起因,对推理数据进行可解释性监控;即对每条数据,计算其对预测标签的影响水平;

采纳 Shapley 值 (Shapley Additive explanation) 解释特色如何影响模型的输入,计算 shap 值输入到可视化平台,日常经营剖析应用。

3.3 点击序列异样检测

3.3.1 背景

通过用户小时点击量序列,开掘歹意行为对应的设施,开掘检测远离占绝大多数失常行为外的异样模式用户群体、比方只有凌晨 0~6 点有低频的其余工夫没点击行为的异样群体、或者每小时平衡点击的行为等异样模式用户等。

3.3.2 建设流程

(1)特色建设

以设施作为用户,统计过来 1 /7/30 天,每小时的点击量,造成 1 *24 小时、7*24 小时、30*24 小时点击量序列,构建的特色具备时间尺度上特色齐备性和每个特色数据间断条件,实用于异样检测算法。

(2)模型抉择

孤立森林离群点检测算法,算法基于两个实践假如,即异样数据占总样本量的比例很小,异样点的特征值与失常点的差别很大。

检测散布稠密且离密度高的群体较远的点,比方下图能够直观的看到,绝对更异样 Xo 的只须要 4 次切割就从整体中被分离出来,即被‘孤立’了,而更加失常的 Xi 点通过了 11 次宰割才从整体中分离出来。

(3)模型训练

应用 IsolationForest 算法,为了更好笼罩,针对多种粒度流量进行异样检测训练。

①全平台流量,训练异样感知模型,设置异样样本比例 contamination=0.05;

②每类媒体类型的流量,训练异样感知模型,设置异样样本比例 contamination=0.1;

③每种广告位类型流量,训练异样感知模型,设置异样样本比例 contamination=0.1。

(4)感知监控

  • 异样得分定义:如果异样得分靠近 1,那么肯定是异样点,如果异样得分远小于 0.5,肯定不是异样点;
  • 异样筛选:筛选异样得分大于 0.7 的用户作为高风险人群,介于 0.5~0.7 的人群作为中危险人群,对高中危险人群,同步审计平台人工二次审计;
  • 案例剖析:

案例① 

2022 年 XX 月 XX 号,7*24 小时点击量异样检测,可疑歹意用户 A,过来 7 天大部分工夫,每小时平衡产生较多点击记录远超失常用户。

 (备注:features 中每个点代表用户一个小时的点击量)

案例②

2022 年 XX 月 XX 号,1*24 小时点击量序列异样检测,可疑歹意用户 B,根本只在凌晨产生点击,其余白天根本无点击行为。

四、总结

在流量反作弊畛域,随着反抗伎俩的降级,算法模型能更好发现和开掘黑产的暗藏的舞弊模式;在广告流量反作弊畛域,咱们应用有监督和无监督等算法模型,从舞弊流量辨认,异样流量感知方面做了摸索开掘利用,无效晋升辨认能力,开掘发现较简单的异样行为模式。将来算法模型在机器流量辨认上更多摸索实际利用。

正文完
 0