乐趣区

关于后端:异动分析技术解决方案异动归因之指标拆解

简介:归因的办法有多种,这篇文章的重点是指标拆解,也是咱们做业务剖析时最罕用到的办法。咱们的目标是解放人力,将指标拆解实现自动化,一方面能够放慢业务迭代速度,疾速定位问题;另一方面能够对可能产生异动的维度进行全局量化,加强可比性,明确下一步的业务口头点的优先级。自动化异变归因的目标是为了尽快判断并抓住机遇,寻求以数据驱动作为灯塔指引业务航向。

作者 | 伊琏
起源 | 阿里技术公众号

一 前言

惟一不变的是变动,在拥抱它前,请当时探知、归因、并充分准备。

在绝对欠缺的指标体系建设背景下,咱们须要通过指标以及指标稳定的解读来形容、追踪、推动业务。当一个指标稳定时,咱们首先须要从业务视角判断其稳定是否异样,即异动检测,其次判断异样背地的起因是什么,即异动归因。

归因的办法有多种,这篇文章的重点是指标拆解,也是咱们做业务剖析时最罕用到的办法。咱们的目标是解放人力,将指标拆解实现自动化,一方面能够放慢业务迭代速度,疾速定位问题;另一方面能够对可能产生异动的维度进行全局量化,加强可比性,明确下一步的业务口头点的优先级。自动化异变归因的目标是为了尽快判断并抓住机遇,寻求以数据驱动作为灯塔指引业务航向。

二 目标

三 贡献率的拆解办法

1 加法拆解

举例针对绝对值指标的维度拆解都是加法拆解。绝对量指标的同比 / 环比变动,就是各个分指标变动的加权求和,例如拜访 uv 总和等于各渠道 uv 加总,那么总 uv 的变动下钻贡献率等于各渠道别离的变动除以上个月的总 uv 数。

2 乘法拆解

举例 漏斗模型,借助用户动线,拆解指标。

以全站商品详情页的浏览量(ipv)为例,其变动波及流量、承接页到商品详情页的转化(uv- d 转化)、商品详情页用户人均浏览量(人均 pv),别离对应了用户增长、搜推场景承接以及私域用户活跃度等业务域或用户行为指标。借此对全站 ipv 的形成链路进行动态乘法拆解:

3 比率型指标拆解

4 实例利用

依据上文提到的不同指标的计算方法,反对全类型指标下钻求奉献的场景,可依据先验业务输出搭建多层的归因逻辑模型,层层下钻,最终将指标稳定定位。


图二:计算贡献率之后的数据后果款式

以 2011 年某日 ipv 同比上涨的异动剖析为例:

第一层拆解,借助用户动线,将存在异动变动的指标 ipv 形成链路进行乘法拆解,如下:

这里帮忙咱们定位到可能导致指标异动的要害节点,这有助于咱们将问题定位到具体业务域,例如是 uv 的问题,转化的问题,还是人均 ipv 的问题?

第二层拆解,对要害节点处的多个维度进行下钻,将问题定位到某些维度的某些程度上,同时防止陷入辛普森悖论等陷阱,这有助于咱们造成具体业务域有所口头,例如如果是转化的问题,到底是哪个渠道的转化缩小了?

下图“异动剖析拆解流程图”是依据先验的业务输出搭建的归因模型,依据其框架得以进行贡献率拆解与问题定位:


图三:指标拆解逐层归因

红色示意的链路指标或维度代表对总值上涨贡献率较大,通过一层一层的拆解定位到 app 端天然流量中转化的升高导致总转化降落。

基于流量跨端调控以及流量估算减投的业务背景,咱们现将对 ipv 奉献最大的 uv/duv 依据端型、流量渠道类型、流量渠道、国家四个维度进行贡献率拆解。

在本实例中,通过本文对贡献率拆解办法与业务人工看数失去的问题定位基本一致,该办法能够实现异动贡献率量化与提效的目标,具体外围论断如下:

论断一(第一层拆解)ipv 降落次要影响因素是 uv- d 转化率的稳定。

论断二(第二层拆解)uv- d 比率的稳定次要由 APP 端与 WAP 端导致,两种端型奉献持平。

论断三(第三 / 四层拆解)APP 端的天然流量和 wap 端的付费流量是 uv- d 总比率稳定的次要奉献维度。

论断四(第五层拆解)APP 端 self-visit 中美国对 uv- d 比率的稳定奉献较大。

通过建设多层归因下钻维度模型,用自动化的形式层层剥析,从而能尽求欠缺且正确的归因到某个维度,从而节俭人力,进步精确和科学性。

四 多层下钻归因计划—决策树

本节重点在拆解求出贡献率之后,如何探查异动。咱们曾经把不同维度下,每个维值的贡献率求出,下一步的目标是求出奉献最大(有异动的)的维度维值组合,测三种拆解计划,包含逐层下钻(同上文 3.4 的下钻形式)、多层同步下钻、决策树模型,发现决策树模型成果最好。这里决策树输出为不同的维值组合,输入为贡献率,做的是回归预测。

次要做法是求贡献率的熵,找到信息增益最高切割办法。这里自然而然想到决策树模型,通过贪婪算法,切割数据空间,找到贡献率绝对值最高的维度组合空间。图四长方形整体示意数据空间,示意两个维度,其下角标示意维度下的维值。下图具象的看出通过不同维值的组合,把数据空间切割成不同块,用不同的色彩代表。


图四:决策树对数据空间的切割可视化

1 剪枝

决策树存在过拟合的问题,为了解决这个问题,咱们决定了剪枝的办法,采纳后剪枝(Post-pruning)。后剪枝就是先把整颗决策树结构结束,而后自底向上的对非叶结点进行考查,若将该结点对应的子树换为叶结点可能带来泛华性能的晋升,则把该子树替换为叶结点。

后剪枝的办法包含:REP- 错误率升高剪枝,PEP- 乐观剪枝,CCP- 代价复杂度剪枝,MEP- 最小谬误剪枝。


图五:异动维数的个数与结点方差(熵)的关系

咱们从图五的事例启发,依照 CPP 的办法,找跃层增益较大的“拐点”,找到适合的图片进行剪枝。

五 模型体现

1 模仿数据

咱们模仿的维度和维值如下,共 4 个维度(两两独立),波及维值共 40 个,4 个维度维值组合(笛卡尔积 3123*4=744)共 744 个。模仿的工夫比照为月环比,模仿指标为广告耗费。

无异动数据:用白乐音图片模仿无异动的维度组合的工夫序列,见图六


图六:无异动的工夫序列

有异动数据:用随机游走的累积和来模仿异动,公式如下,见图七



图七(a):有异动的工夫序列 1

2 模型评估

在上图四个维度(国家、渠道、端型、曝光档位),指定特定的维度和维值在 3 月有异动,通过决策树模型,测试是否找到正确异动点。模仿 case 思考的次要是可能存在异动的真实情况:

某个 PID 数据录入异样,会影响单维度的异动(仅那个 PID 的数据)。
某个渠道且某个端型的减投,会影响多个维度组合的异动。因为指标异动波及的业务繁冗,不同团队在不同方向的优化,影响到不同的维值组合。

例一:异动维度在两处

异动维值组合:

a. 国家 = 伊拉克,渠道 = 收费, 端型 =’WAP’, 曝光档位 =[5:100]
b. 国家 = 法国,渠道 = 收费, 端型 =’PC’, 曝光档位 =[0:5]

将贡献度算出,数据输出决策树模型,后果见图八,能够看出决策树准确的找到异动的数据(共准确找到 7 个维值,共 8 个),且这两组标红数据对于异动的奉献绝对值最大。咱们自定义树结构找父节点的办法,主动剪掉冗余分支,只截取重点枝干出现。


图八:决策树后果出现

特色重要性也合乎预期:

例二:异动维度在一处,只异动一个维度在付费上

异动维值组合:a. 渠道 = 付费

通过剪枝,模型胜利找到一维信息,防止提供太多乐音令用户混同。

更多

表一蕴含更多维值组合案例,以及模型体现,包含 F1-score,模型输入的后果,和特色重要性。已摸索 11 个案例,均匀 F1-score 达到 91.9%。

上面的数量是异动的维值个数:

| Positive Prediction | Negative Prediction
Positive Class | True Positive (TP) 34 | False Negative (FN) 6
Negative Class | False Positive (FP) 0 | True Negative (TN) 0

最初后果:

Precision = 34 /(34 + 0)= 100%
Recall = 34 /(34 + 6)= 85%
F-1 Score Overall = 91.9%



六 局限

但此方法论还是有其局限性的,次要在于归因变量(下钻维度)无限,大多数状况下是依照业务的了解和先验的教训来判断。本办法只能辨认业务曾经认可的拆解维度和链路定位,拆解到的指标或维度都是已知业务零碎内的指标,诸如工程问题、宏观政策等因素难以辨认,须要辅以定性分析。具体来说,咱们看到 pv 降落,下意识要去从渠道下钻,次要起因是咱们因为渠道作为变量,是和 pv 数有正向(或者因果)关系的。举个极其的例子,有可能是服务器的故障,导致全平台的 pv 上涨。这样的潜在变量,如果和罕用下钻变量彼此互相独立的条件下,是无奈通过此方法论探查失去的。咱们后续的工作将重点放在对互相独立的指标和相干事件的角度做进一步更全面的因果推断算法钻研。

七 技术产品化

咱们工作中月报和周报中通常剖析的办法与此相似,不同的是,因为人力无限,数据庞杂,往往下钻维度和层数局限,比率类型指标不晓得如何下钻等等,导致科学性和严谨性很难放弃。这套办法实现了自动化,保障计算的准确性,节俭人日。咱们将此技术积淀在外部数据产品“象数”上。象数核心是 ICBU 数据驱动的基石产品,是集数据资产定义与治理、A/ B 试验、洞察剖析于一体的数据平台。它提供的外围价值在于好找、敢用、继续保鲜的数据资产,大规模、可信的端到端试验能力,以及因果、异动等智能化的剖析工具。

八 附录

证实 加法奉献算法

已知

奉献等于

证实 乘法奉献算法

已知

奉献等于

指标稳定

证实 比率奉献算法

已知


其中

是当月的数据,

为上个月(同比 / 环比)的数据。

奉献等于

算法失去的贡献率仍旧互相独立,合乎 MECE 准则,且通过别离观测图片和图片有助于咱们避开辛普森悖论带来的陷阱。

备注:合乎 mece 准则证实:互相独立: 的计算公式中不波及其余分项的齐全穷尽。

参考

Ang, Beng W., F. Q. Zhang, and Ki-Hong Choi. “Factorizing changes in energy and environmental indicators through decomposition.” Energy 23.6 (1998): 489-495.
Ang B W . The LMDI approach to decomposition analysis: a practical guide[J]. Energy Policy, 2005, 33(7):867-871.
《稳定解读—指标拆解的加减乘除双因素》https://zhuanlan.zhihu.com/p/…

原文链接
本文为阿里云原创内容,未经容许不得转载。

退出移动版