关于大数据:注意你所做的-AB-实验可能是错的

对于 A/B 试验原理认知的缺失，以致许多企业在业务增长的路线上始终在操作一批“谬误的 A/B 试验”。这些试验并不能领导产品的优化和迭代，甚至有可能与咱们的初衷南辕北辙，导致“负增长”。

在 A/B 试验一直走红的明天，越来越多的企业开始意识到 A/B 试验的重要意义，并试图通过 A/B 试验，前置性地量化决策收益，从而实现增长。然而，当你和其余业务搭档谈及 A/B 试验时，你总能听到这样的论调：

“这事儿很简略，做个试验就行了。筹备两个版本，在不同渠道里发版，而后看看数据。”

“把用户依照 did（device_id)尾号奇偶分流进实验组和对照组，而后看看数据体现。”

不可否认，这部分企业确实走在前沿，初步领有了 A/B 试验的思维。然而令人遗憾的是，他们操作的所谓“A/B 试验”，其实并不具备 A/B 试验应有的效用。

更令人遗憾的是，他们仿佛对此并不通晓。

对于 A/B 试验原理认知的缺失，以致许多企业在业务增长的路线上始终在操作一批“谬误的 A/B 试验”。这些试验并不能领导产品的优化和迭代，甚至有可能与咱们的初衷南辕北辙，导致“负增长”。

因而，为了可能更好地明确什么是 A/B 试验，咱们无妨先来理解几种谬误的 A/B 试验。

No1：用户抽样不迷信

典型体现

“用户抽样不迷信”是谬误 A/B 试验的第一宗罪。操作这种谬误 A/B 试验的企业常采取以下做法：

试验中，在不同的渠道/利用市场中，公布不同版本的 APP/页面，并把用户数据进行比照；

简略地从总体流量中抽取 n%用于试验，不思考流量散布，不做分流解决（例如：简略地从总体流量中任意取出 n%，依照 ID 尾号单双号把用户分成两组）。

错在哪儿

不同利用市场/渠道的用户经常带有本人的典型特色，用户散布具备显著区别。对总流量进行“简略粗犷”地抽样也有着同样的问题——分流到实验组和对照组的流量可能存在很大的散布差别。

实际上，A/B 试验要求咱们，尽可能地放弃实验组和对照组流量散布统一（与总体流量也需放弃散布统一），否则得出的试验数据并不具备可信性。

为什么要放弃散布统一呢？咱们无妨来看一个问题：

某大学由两个学院组成。

1 号学院的男生录取率是 75%，女生录取率 49%，男生录取率高于女生；
2 号学院男生录取率 10%，女生录取率 5%，男生录取率同样高于女生。问：综合两个学院来看，这所大学的总体录取率是否男生高于女生？

直觉上来说，许多人会感觉，男生录取率总体上会高于女生。然而事实并不是这样，让咱们来看看理论数字：

从上表能够看出，只管两个学院男生录取率都高于女生，但综合思考两个学院的状况时，男生的总体录取率却要低于女生。这种景象在统计学中被称为辛普森悖论。

辛普森悖论由英国统计学家 E.H 辛普森于 1951 年提出。其次要内容是：几组不同的数据中均存在一种趋势，但当这些数据组合在一起后，这种趋势隐没或反转。其产生的起因次要是数据中存在多个变量。这些变量通常难以辨认，被称为“埋伏变量”。埋伏变量可能是因为采样谬误造成的。

在 A/B 试验中，如果实验组和对照组的样本流量散布不统一，就可能产生辛普森悖论，失去不牢靠的试验后果。

分流是 A/B 试验胜利与否的关键点，在晚期企业还不具备过硬研发能力状况下，想要真正做对 A/B 试验，最佳办法是借助第三方试验工具中成熟的分流服务。

火山引擎 A/B 测试长期服务于抖音、今日头条等头部互联网产品，分流服务迷信牢靠，并且可能撑持亿级 DAU 产品进行 Push 试验，在高并发场景下保持稳定，帮忙咱们从总体流量中更加平均地分流样本，使试验更迷信。

No2：互斥层抉择谬误

典型体现

接入了试验工具，A/B 试验就能做对了吗？也不尽然。许多实验者在进行试验操作时，将有关联性的试验搁置在不同的试验互斥层上，导致试验后果不可信。

何谓“互斥层”？在火山引擎 A/B 测试中，“互斥层”技术是为了让多个试验可能并行，不互相烦扰，且都取得足够的流量而研发的流量分层技术。

假如我当初有 4 个试验要进行，每一个试验要取用 30%的流量才可能得出可信的试验后果。此时为了同时运行这 4 个试验就须要 4*30%=120%的流量，这意味着 100%的流量不够同时调配给这 4 个试验。那么此时我只能抉择给试验排序，让几个试验先后实现。但这会造成试验效率低下。试想一下，抖音每天有上千个试验要进行，如果只能排队挨号，抖音的试验 schedule 恐怕要排个 10 年。

那么有没有方法能够解决这个问题呢？

有，就是应用互斥层技术，把总体流量“复制”无数遍，造成无数个互斥层，让总体流量能够被无数次复用，从而进步试验效率。

各互斥层之间的流量是正交的，你能够简略了解为：在互斥层抉择正确的前提下，流量通过迷信的调配，可保障各试验的后果不会受到其余互斥层的烦扰。

在抉择互斥层的时候，实验者该当要遵循的规定是：如果试验之间有相关性，那么试验必须置于同一互斥层；如果试验之间没有相关性，那么试验能够置于不同互斥层。如果不遵循这一准则，那么 A/B 试验就会出问题。

错在哪儿

那么，问题到底是出在了哪儿呢？

对于试验需要旺盛的企业来说，互斥层技术完满解决了多个试验并行时流量不够用的问题。然而，乱选互斥层会导致试验后果不可信。为什么？举个例子，当初咱们想对购买页面的购买按钮进行试验。

咱们作出两个假如：

假如 1：将购买按钮的色彩从蓝色改为红色，用户购买率能够进步 3%；
假如 2：将购买按钮的形态从方形改为圆形，用户购买率能够进步 1.5%。

针对上述两个假如，咱们须要开设两个试验：一个针对按钮色彩，一个针对按钮形态。两个试验均与购买按钮有关系，具备显著的关联性。这两组试验是否能够放在不同互斥层上呢？

状况 1：相干试验置于不同层
如下图，咱们把两个试验别离搁置在两层上，同时开启两个试验。此时用户 A 关上了咱们的购买页面，进入到总体流量之中。在互斥层 1 里，用户被测试按钮色彩的试验命中，进入实验组 Red；在互斥层 2 里，用户被测试按钮形态的试验命中，进入实验组 Round。

由图可知，用户 A 将受到“按钮色彩 Red”以及“按钮形态 Round”两个策略影响，咱们无奈判断到底是哪个策略影响了该用户的行为。换句话说，因为两个试验存在关联，用户反复被试验命中，试验后果理论受到了多个策略的影响。这种状况下，两个试验的后果便不再可信了。

状况 2：相干试验置于同一层
换个思路，如果将下面的两个试验搁置在同一层上，那么用户在进入试验后便只会被一个试验命中。两个实验组均只受到一个策略影响，试验后果可信。

企业在进行 A/B 试验时，工具是基础设施，在理论业务，咱们还须要联合具体的试验场景，进行正确的实验设计。

No3：不思考是否显著

典型体现

试验完结后，只简略地观测试验数据的涨跌，不思考试验后果是否显著。

错在哪儿

“显著”是一个统计学用词，为什么咱们须要在评估试验后果时引入统计学呢？

咱们曾经晓得，A/B 试验是一种小流量试验，咱们须要从总体流量中抽取一定量的样本来验证新策略是否无效。然而抽样过程中，样本并不能齐全代表整体，尽管咱们全力以赴地进行随机抽样，但最终仍无奈防止样本和总体之间的差别。

理解了这一前提咱们就能明确，在 A/B 试验中，如果只对数据进行简略的计算，咱们对于试验后果的判断很可能会“出错”（毕竟咱们通过试验观测失去的是样本数据，而不是整体数据）。

那么，有什么方法去量化样本与总体之间的差别对数据指标造成的影响呢？这就须要联合统计学的办法，在评估试验后果时退出相应的统计学指标，如置信度、置信区间、统计效用等。

原则上，如果试验后果不显著（或说不相信），咱们便不能判断数据的涨/跌，是否是由试验中采取的策略造成的（可能由抽样误差造成），咱们也不能自觉地全量公布新策略/否定新策略。

A/B 试验中的统计学原理是一个较为宏大简单的课题，介于篇幅，咱们在此暂不做开展解释。对这部分内容感兴趣的读者也可继续关注「字节跳动数据平台」，咱们在前期会推出相应内容来为大家进行解说。须要明确的一点是：评估 A/B 试验，绝不仅仅是比拟下实验组和对照组的数据高下这么简略。

在试验后果评估方面，好的试验平台须要具备两个特点：第一是牢靠的统计策略，第二是清晰、欠缺的实验报告。相较于市面上其余试验工具，这两个特点正是火山引擎 A/B 测试的劣势所在。

在统计策略方面，火山引擎 A/B 测试的统计策略长期服务于抖音、今日头条等产品，历经打磨，迷信牢靠；在实验报告方面，从概览至指标详情，火山引擎 A/B 测试依靠于经典统计学的假设检验办法，联合置信度、置信区间，帮忙实验者全方位的判断试验策略收益。

作为互联网公司的新宠，A/B 试验确有其独到之处，但通俗的试验认知、谬误的试验办法，可能会以致企业在增长的路线上“反向前行”。此处让咱们借用一句经典的影视台词吧：“产生这种事，大家都不想的。”

事实上，本文中所提及的“谬误的 A/B 试验”，只是最通俗的 3 种，在产品增长的路线上，埋伏在一旁潜伏着实验者的“大坑”还有很多，咱们也会陆续教给大家如何“避坑”。

关联产品
火山引擎 a/b 测试
解脱猜想，用迷信的试验掂量决策收益打造更好的产品，让业务的每一步都通往增长。

欢送关注字节跳动数据平台同名公众号

关于大数据:注意你所做的-AB-实验可能是错的

No1：用户抽样不迷信

典型体现

错在哪儿

No2：互斥层抉择谬误

典型体现

错在哪儿

No3：不思考是否显著

典型体现

错在哪儿

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于大数据:注意你所做的-AB-实验可能是错的

No1：用户抽样不迷信

典型体现

错在哪儿

No2：互斥层抉择谬误

典型体现

错在哪儿

No3：不思考是否显著

典型体现

错在哪儿

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复