乐趣区

关于大数据:注意你所做的-AB-实验可能是错的

对于 A/B 试验原理认知的缺失,以致许多企业在业务增长的路线上始终在操作一批“谬误的 A/B 试验”。这些试验并不能领导产品的优化和迭代,甚至有可能与咱们的初衷南辕北辙,导致“负增长”。

在 A/B 试验一直走红的明天,越来越多的企业开始意识到 A/B 试验的重要意义,并试图通过 A/B 试验,前置性地量化决策收益,从而实现增长。然而,当你和其余业务搭档谈及 A/B 试验时,你总能听到这样的论调:

“这事儿很简略,做个试验就行了。筹备两个版本,在不同渠道里发版,而后看看数据。”

“把用户依照 did(device_id)尾号奇偶分流进实验组和对照组,而后看看数据体现。”

不可否认,这部分企业确实走在前沿,初步领有了 A/B 试验的思维。然而令人遗憾的是,他们操作的所谓“A/B 试验”,其实并不具备 A/B 试验应有的效用。

更令人遗憾的是,他们仿佛对此并不通晓。

对于 A/B 试验原理认知的缺失,以致许多企业在业务增长的路线上始终在操作一批“谬误的 A/B 试验”。这些试验并不能领导产品的优化和迭代,甚至有可能与咱们的初衷南辕北辙,导致“负增长”。

因而,为了可能更好地明确什么是 A/B 试验,咱们无妨先来理解几种谬误的 A/B 试验。

No1:用户抽样不迷信

典型体现

“用户抽样不迷信”是谬误 A/B 试验的第一宗罪。操作这种谬误 A/B 试验的企业常采取以下做法:

试验中,在不同的渠道 / 利用市场中,公布不同版本的 APP/ 页面,并把用户数据进行比照;

简略地从总体流量中抽取 n% 用于试验,不思考流量散布,不做分流解决(例如:简略地从总体流量中任意取出 n%,依照 ID 尾号单双号把用户分成两组)。

错在哪儿

不同利用市场 / 渠道的用户经常带有本人的典型特色,用户散布具备显著区别。对总流量进行“简略粗犷”地抽样也有着同样的问题——分流到实验组和对照组的流量可能存在很大的散布差别。

实际上,A/B 试验要求咱们,尽可能地放弃实验组和对照组流量散布统一(与总体流量也需放弃散布统一),否则得出的试验数据并不具备可信性。

为什么要放弃散布统一呢?咱们无妨来看一个问题:

某大学由两个学院组成。

  • 1 号学院的男生录取率是 75%,女生录取率 49%,男生录取率高于女生;
  • 2 号学院男生录取率 10%,女生录取率 5%,男生录取率同样高于女生。问:综合两个学院来看,这所大学的总体录取率是否男生高于女生?

直觉上来说,许多人会感觉,男生录取率总体上会高于女生。然而事实并不是这样,让咱们来看看理论数字:

从上表能够看出,只管两个学院男生录取率都高于女生,但综合思考两个学院的状况时,男生的总体录取率却要低于女生。这种景象在统计学中被称为辛普森悖论。

辛普森悖论由英国统计学家 E.H 辛普森于 1951 年提出。其次要内容是:几组不同的数据中均存在一种趋势,但当这些数据组合在一起后,这种趋势隐没或反转。其产生的起因次要是数据中存在多个变量。这些变量通常难以辨认,被称为“埋伏变量”。埋伏变量可能是因为采样谬误造成的。

在 A/B 试验中,如果实验组和对照组的样本流量散布不统一,就可能产生辛普森悖论,失去不牢靠的试验后果。

分流是 A/B 试验胜利与否的关键点,在晚期企业还不具备过硬研发能力状况下,想要真正做对 A/B 试验,最佳办法是借助第三方试验工具中成熟的分流服务。

火山引擎 A/B 测试长期服务于抖音、今日头条等头部互联网产品,分流服务迷信牢靠,并且可能撑持亿级 DAU 产品进行 Push 试验,在高并发场景下保持稳定,帮忙咱们从总体流量中更加平均地分流样本,使试验更迷信。

No2:互斥层抉择谬误

典型体现

接入了试验工具,A/B 试验就能做对了吗?也不尽然。许多实验者在进行试验操作时,将有关联性的试验搁置在不同的试验互斥层上,导致试验后果不可信。

何谓“互斥层”?在火山引擎 A/B 测试中,“互斥层”技术是为了让多个试验可能并行,不互相烦扰,且都取得足够的流量而研发的流量分层技术。

假如我当初有 4 个试验要进行,每一个试验要取用 30% 的流量才可能得出可信的试验后果。此时为了同时运行这 4 个试验就须要 4*30%=120% 的流量,这意味着 100% 的流量不够同时调配给这 4 个试验。那么此时我只能抉择给试验排序,让几个试验先后实现。但这会造成试验效率低下。试想一下,抖音每天有上千个试验要进行,如果只能排队挨号,抖音的试验 schedule 恐怕要排个 10 年。

那么有没有方法能够解决这个问题呢?

有,就是应用互斥层技术,把总体流量“复制”无数遍,造成无数个互斥层,让总体流量能够被无数次复用,从而进步试验效率。

各互斥层之间的流量是正交的,你能够简略了解为:在互斥层抉择正确的前提下,流量通过迷信的调配,可保障各试验的后果不会受到其余互斥层的烦扰。

在抉择互斥层的时候,实验者该当要遵循的规定是:如果试验之间有相关性,那么试验必须置于同一互斥层;如果试验之间没有相关性,那么试验能够置于不同互斥层。如果不遵循这一准则,那么 A/B 试验就会出问题。

错在哪儿

那么,问题到底是出在了哪儿呢?

对于试验需要旺盛的企业来说,互斥层技术完满解决了多个试验并行时流量不够用的问题。然而,乱选互斥层会导致试验后果不可信。为什么?举个例子,当初咱们想对购买页面的购买按钮进行试验。

咱们作出两个假如:

  • 假如 1:将购买按钮的色彩从蓝色改为红色,用户购买率能够进步 3%;
  • 假如 2:将购买按钮的形态从方形改为圆形,用户购买率能够进步 1.5%。

针对上述两个假如,咱们须要开设两个试验:一个针对按钮色彩,一个针对按钮形态。两个试验均与购买按钮有关系,具备显著的关联性。这两组试验是否能够放在不同互斥层上呢?

状况 1:相干试验置于不同层
如下图,咱们把两个试验别离搁置在两层上,同时开启两个试验。此时用户 A 关上了咱们的购买页面,进入到总体流量之中。在互斥层 1 里,用户被测试按钮色彩的试验命中,进入实验组 Red;在互斥层 2 里,用户被测试按钮形态的试验命中,进入实验组 Round。

由图可知,用户 A 将受到“按钮色彩 Red”以及“按钮形态 Round”两个策略影响,咱们无奈判断到底是哪个策略影响了该用户的行为。换句话说,因为两个试验存在关联,用户反复被试验命中,试验后果理论受到了多个策略的影响。这种状况下,两个试验的后果便不再可信了。

状况 2:相干试验置于同一层
换个思路,如果将下面的两个试验搁置在同一层上,那么用户在进入试验后便只会被一个试验命中。两个实验组均只受到一个策略影响,试验后果可信。

企业在进行 A/B 试验时,工具是基础设施,在理论业务,咱们还须要联合具体的试验场景,进行正确的实验设计。

No3:不思考是否显著

典型体现

试验完结后,只简略地观测试验数据的涨跌,不思考试验后果是否显著。

错在哪儿

“显著”是一个统计学用词,为什么咱们须要在评估试验后果时引入统计学呢?

咱们曾经晓得,A/B 试验是一种小流量试验,咱们须要从总体流量中抽取一定量的样本来验证新策略是否无效。然而抽样过程中,样本并不能齐全代表整体,尽管咱们全力以赴地进行随机抽样,但最终仍无奈防止样本和总体之间的差别。

理解了这一前提咱们就能明确,在 A/B 试验中,如果只对数据进行简略的计算,咱们对于试验后果的判断很可能会“出错”(毕竟咱们通过试验观测失去的是样本数据,而不是整体数据)。

那么,有什么方法去量化样本与总体之间的差别对数据指标造成的影响呢?这就须要联合统计学的办法,在评估试验后果时退出相应的统计学指标,如置信度、置信区间、统计效用等。

原则上,如果试验后果不显著(或说不相信),咱们便不能判断数据的涨 / 跌,是否是由试验中采取的策略造成的(可能由抽样误差造成),咱们也不能自觉地全量公布新策略 / 否定新策略。

A/B 试验中的统计学原理是一个较为宏大简单的课题,介于篇幅,咱们在此暂不做开展解释。对这部分内容感兴趣的读者也可继续关注「字节跳动数据平台」,咱们在前期会推出相应内容来为大家进行解说。须要明确的一点是:评估 A/B 试验,绝不仅仅是比拟下实验组和对照组的数据高下这么简略。

在试验后果评估方面,好的试验平台须要具备两个特点:第一是牢靠的统计策略,第二是清晰、欠缺的实验报告。相较于市面上其余试验工具,这两个特点正是火山引擎 A/B 测试的劣势所在。

在统计策略方面,火山引擎 A/B 测试的统计策略长期服务于抖音、今日头条等产品,历经打磨,迷信牢靠;在实验报告方面,从概览至指标详情,火山引擎 A/B 测试依靠于经典统计学的假设检验办法,联合置信度、置信区间,帮忙实验者全方位的判断试验策略收益。

作为互联网公司的新宠,A/B 试验确有其独到之处,但通俗的试验认知、谬误的试验办法,可能会以致企业在增长的路线上“反向前行”。此处让咱们借用一句经典的影视台词吧:“产生这种事,大家都不想的。”

事实上,本文中所提及的“谬误的 A/B 试验”,只是最通俗的 3 种,在产品增长的路线上,埋伏在一旁潜伏着实验者的“大坑”还有很多,咱们也会陆续教给大家如何“避坑”。

关联产品
火山引擎 a/b 测试
解脱猜想,用迷信的试验掂量决策收益打造更好的产品,让业务的每一步都通往增长。

​欢送关注字节跳动数据平台同名公众号

退出移动版