从波哥大的起居室,到东京的早间通勤,再到洛杉矶的海滩和柏林的宿舍,Netflix 致力于为寰球 1.39 亿会员带来欢畅,并将人们与他们青睐的故事分割起来。从注册过程中与 Netflix 的第一次接触开始 — 无论是在挪动设施、平板电脑、笔记本电脑还是电视上 — 客户体验的每一个局部都充斥了翻新。咱们通过一直地从数据中学习和欠缺咱们的产品,致力通过试验给咱们的客户带来最好的体验。在客户获取畛域,咱们的指标是使注册过程尽可能便捷、晦涩和直观。
在大规模的试验中有许多挑战。但信不信由你,即便每天有数百万的寰球访问者和最先进的 a/b 测试基础设施,咱们依然心愿咱们有更大的样本来测试更多的翻新想法。如果可能的话,尽早完结试验有很多益处。举几个例子:
- 咱们能够在同样的工夫内进行更多的测试,为咱们的客户提供更好的体验
- 咱们能够迅速试水,以确定将来翻新投资的最佳畛域
- 如果咱们可能,以一种有准则的形式,在发现相当大的影响时提前结束试验,咱们能够更快地给咱们的客户带来更多的高兴
另一方面,进行短期试验也有一些危险:
- 通常测试调配的工夫远远超过功耗剖析确定的最小须要工夫,以加重潜在的季节性稳定影响 (例如,每天的工夫、每周的日子、每周的工夫等),确定任何离奇成果的递加,或解释任何须要较长时间能力浮现的医治成果
- 节假日和非凡流动,比方新书发布会,可能会吸引不具代表性的观众。这可能使测试后果不那么具备普遍性
- 不正确地提前调用试验可能大幅提高假阳性率,从而导致节约业务致力
因而,为了通过试验来建设一个更快的产品翻新的迷信框架,咱们想要答复两个关键问题:
1)季节性对咱们的试验有多大影响,如果有影响的话;
2)如果季节性不是一个很大的问题,咱们怎样才能以一种迷信准则的形式提前结束试验?
利用 Meta 剖析检测节令效应
尽管季节性被认为会升高短期测试的普遍性,但并非所有的测试都同样容易受到影响。例如,如果咱们试验一下“持续”按钮的外观和感觉,周一的访问者与周五的访问者在审美偏好上不应该有显著的差别。另一方面,一个新的原创电视系列的背景图片可能会更加引人注目,在推出的时候,游客可能有更高的意识和用意退出。因而,要害是辨认具备工夫不变策略成果的测试,并更无效地运行它们。这须要技术工作和教训的联合。
咱们在这里应用的秘密武器是 Meta 剖析,一个简略而弱小的办法来剖析相关性。咱们采纳这种办法来确定时序变动的策略成果。这种办法在医疗保健畛域的一个常见利用,将独立钻研的后果联合起来,以进步疗效并改良对医治成果的预计,例如一种新药的疗效。从更高层面来看:
- 如果独立钻研的后果是统一的,如下图所示(左侧),数据能够用一个固定效应模型来拟合,以产生一个更有信念的预计。五项个体测试的策略成果在统计学上无显著性差别,但方向性为阴性。当混合在一起时,模型产生更精确的预计,如固定效应行所示。
- 相比之下,如果独立钻研的后果是不统一的,如图表右侧所示,同时有侧面和负面的策略成果,Meta 剖析将适当地抵赖更高水平的异质性。它将调整到一个随机效应模型,以适应更宽泛的置信区间,正如将来的预期区间
更多的细节能够在这个参考文献中找到。模型拟合过程 (即固定效应模型与随机效应模型) 能够用来测试不同的医治效应是否存在于不同的工夫维度(例如,每天的工夫、每周的天数、每周的周数、事件前后)。咱们在 a/b 测试中对注册流程进行了全面的回顾性钻研。正如预期的那样,咱们发现大多数试验不能证实随着工夫的推移强烈的异质策略成果。因而,咱们能够提前结束一些测试,进行更多的翻新,更快地为咱们的潜在客户带来更好的体验。
以最优进行完结试验
假如策略成果是工夫不变的 (通过 Meta 剖析评估) 和足够大,咱们能够利用各种最优进行策略在晚期完结测试。天真地,咱们能够一直地偷看试验仪表盘,但这将收缩假阳性时,咱们谬误地认为有策略成果存在。有一些迷信的办法能够通过窥视 (或者更正式的说,长期剖析) 来管制假阳性(i 型谬误)。在咱们的回顾性钻研中曾经评估了几种办法,如 Wald 的序贯概率比测验(SPRT)、序贯三角测验和群体序贯测验(GST)。GST 在咱们的钻研中显示了最好的性能和实用价值; 它被广泛应用于临床试验中,在这些试验中样品随着工夫的推移成批累积,这非常适合咱们的用例。它大抵是这样运作的:
- 在测试开始之前,咱们决定所需的最小运行工夫和中期剖析的数量
- GST 调配将可容忍的 i 类谬误 (例如 0.05) 计入所有中期剖析,以便 i 类谬误加总为 i 类谬误的总和。因而,每次中期测试都比定期检查更加激进
- 一旦测试变得具备统计学意义,就能够立刻进行。当察看到的解决成果大大超过预期时,这种状况常常产生
上面的图表说明了要害值,集体和累计 alpha 破费从 GST 设计与五个中期剖析。通过采纳这一策略,咱们能够节俭大量的工夫进行一些试验,并更快取得十分精确的策略成果的点估计,尽管有略宽的置信区间和策略成果的小收缩。当咱们想要疾速测试各种想法并且策略成果的准确性不那么重要时,或者当咱们因为重大的负面影响而须要提前结束测试时,这种办法成果最好。
上面的图表说明了一个胜利的 GST 晚期进行和一个固定的样本大小 (FSS 齐全进行) 确定的势力剖析。因为察看到的效应大小是足够大,咱们能够用相似的点估计更早地进行测试。
当初,咱们的初步钻研曾经实现,咱们正在踊跃开发 Meta 剖析、最优进行、异质解决成果检测,以及更大的 Netflix 试验和因果推理平台。咱们心愿这些个性可能放慢咱们目前的试验工作流程,放慢产品翻新,并最终为咱们的客户带来最好的体验和高兴。这是一个继续的旅程,如果你对咱们的使命和咱们激动人心的工作充斥激情,退出咱们的全明星团队吧!
特别感谢 Randall Lewis,Colin McFarland 和 Netflix 的迷信与剖析团队的反对。团队单干让梦想成真!
参考资料
原文作者:Gang Su & Ian Yohai 译者:Harry Zhu 英文原文地址:
https://netflixtechblog.com/improving-experimentation-efficiency-at-netflix-with-meta-analysis-and-optimal-stopping-d8ec290ae5be作为分享主义者 (sharism),自己所有互联网公布的图文均听从 CC 版权,转载请保留作者信息并注明作者 Harry Zhu 的 FinanceR 专栏:https://segmentfault.com/blog…,如果波及源代码请注明 GitHub 地址:https://github.com/harryprince。微信号: harryzhustudio
商业应用请分割作者。