关于人工智能:译-解密-Netflix-如何提升AB实验效率

从波哥大的起居室，到东京的早间通勤，再到洛杉矶的海滩和柏林的宿舍，Netflix 致力于为寰球 1.39 亿会员带来欢畅，并将人们与他们青睐的故事分割起来。从注册过程中与 Netflix 的第一次接触开始 — 无论是在挪动设施、平板电脑、笔记本电脑还是电视上 — 客户体验的每一个局部都充斥了翻新。咱们通过一直地从数据中学习和欠缺咱们的产品，致力通过试验给咱们的客户带来最好的体验。在客户获取畛域，咱们的指标是使注册过程尽可能便捷、晦涩和直观。

在大规模的试验中有许多挑战。但信不信由你，即便每天有数百万的寰球访问者和最先进的 a/b 测试基础设施，咱们依然心愿咱们有更大的样本来测试更多的翻新想法。如果可能的话，尽早完结试验有很多益处。举几个例子:

咱们能够在同样的工夫内进行更多的测试，为咱们的客户提供更好的体验
咱们能够迅速试水，以确定将来翻新投资的最佳畛域
如果咱们可能，以一种有准则的形式，在发现相当大的影响时提前结束试验，咱们能够更快地给咱们的客户带来更多的高兴

另一方面，进行短期试验也有一些危险:

通常测试调配的工夫远远超过功耗剖析确定的最小须要工夫，以加重潜在的季节性稳定影响 (例如，每天的工夫、每周的日子、每周的工夫等)，确定任何离奇成果的递加，或解释任何须要较长时间能力浮现的医治成果
节假日和非凡流动，比方新书发布会，可能会吸引不具代表性的观众。这可能使测试后果不那么具备普遍性
不正确地提前调用试验可能大幅提高假阳性率，从而导致节约业务致力

因而，为了通过试验来建设一个更快的产品翻新的迷信框架，咱们想要答复两个关键问题:
1)季节性对咱们的试验有多大影响，如果有影响的话;
2)如果季节性不是一个很大的问题，咱们怎样才能以一种迷信准则的形式提前结束试验？

尽管季节性被认为会升高短期测试的普遍性，但并非所有的测试都同样容易受到影响。例如，如果咱们试验一下“持续”按钮的外观和感觉，周一的访问者与周五的访问者在审美偏好上不应该有显著的差别。另一方面，一个新的原创电视系列的背景图片可能会更加引人注目，在推出的时候，游客可能有更高的意识和用意退出。因而，要害是辨认具备工夫不变策略成果的测试，并更无效地运行它们。这须要技术工作和教训的联合。

咱们在这里应用的秘密武器是 Meta 剖析，一个简略而弱小的办法来剖析相关性。咱们采纳这种办法来确定时序变动的策略成果。这种办法在医疗保健畛域的一个常见利用，将独立钻研的后果联合起来，以进步疗效并改良对医治成果的预计，例如一种新药的疗效。从更高层面来看:

如果独立钻研的后果是统一的，如下图所示(左侧)，数据能够用一个固定效应模型来拟合，以产生一个更有信念的预计。五项个体测试的策略成果在统计学上无显著性差别，但方向性为阴性。当混合在一起时，模型产生更精确的预计，如固定效应行所示。
相比之下，如果独立钻研的后果是不统一的，如图表右侧所示，同时有侧面和负面的策略成果，Meta 剖析将适当地抵赖更高水平的异质性。它将调整到一个随机效应模型，以适应更宽泛的置信区间，正如将来的预期区间

更多的细节能够在这个参考文献中找到。模型拟合过程 (即固定效应模型与随机效应模型) 能够用来测试不同的医治效应是否存在于不同的工夫维度(例如，每天的工夫、每周的天数、每周的周数、事件前后)。咱们在 a/b 测试中对注册流程进行了全面的回顾性钻研。正如预期的那样，咱们发现大多数试验不能证实随着工夫的推移强烈的异质策略成果。因而，咱们能够提前结束一些测试，进行更多的翻新，更快地为咱们的潜在客户带来更好的体验。

假如策略成果是工夫不变的 (通过 Meta 剖析评估) 和足够大，咱们能够利用各种最优进行策略在晚期完结测试。天真地，咱们能够一直地偷看试验仪表盘，但这将收缩假阳性时，咱们谬误地认为有策略成果存在。有一些迷信的办法能够通过窥视 (或者更正式的说，长期剖析) 来管制假阳性(i 型谬误)。在咱们的回顾性钻研中曾经评估了几种办法，如 Wald 的序贯概率比测验(SPRT)、序贯三角测验和群体序贯测验(GST)。GST 在咱们的钻研中显示了最好的性能和实用价值; 它被广泛应用于临床试验中，在这些试验中样品随着工夫的推移成批累积，这非常适合咱们的用例。它大抵是这样运作的:

在测试开始之前，咱们决定所需的最小运行工夫和中期剖析的数量
GST 调配将可容忍的 i 类谬误 (例如 0.05) 计入所有中期剖析，以便 i 类谬误加总为 i 类谬误的总和。因而，每次中期测试都比定期检查更加激进
一旦测试变得具备统计学意义，就能够立刻进行。当察看到的解决成果大大超过预期时，这种状况常常产生

上面的图表说明了要害值，集体和累计 alpha 破费从 GST 设计与五个中期剖析。通过采纳这一策略，咱们能够节俭大量的工夫进行一些试验，并更快取得十分精确的策略成果的点估计，尽管有略宽的置信区间和策略成果的小收缩。当咱们想要疾速测试各种想法并且策略成果的准确性不那么重要时，或者当咱们因为重大的负面影响而须要提前结束测试时，这种办法成果最好。

上面的图表说明了一个胜利的 GST 晚期进行和一个固定的样本大小 (FSS 齐全进行) 确定的势力剖析。因为察看到的效应大小是足够大，咱们能够用相似的点估计更早地进行测试。

当初，咱们的初步钻研曾经实现，咱们正在踊跃开发 Meta 剖析、最优进行、异质解决成果检测，以及更大的 Netflix 试验和因果推理平台。咱们心愿这些个性可能放慢咱们目前的试验工作流程，放慢产品翻新，并最终为咱们的客户带来最好的体验和高兴。这是一个继续的旅程，如果你对咱们的使命和咱们激动人心的工作充斥激情，退出咱们的全明星团队吧！

特别感谢 Randall Lewis，Colin McFarland 和 Netflix 的迷信与剖析团队的反对。团队单干让梦想成真！

原文作者：Gang Su & Ian Yohai 译者：Harry Zhu 英文原文地址:
https://netflixtechblog.com/improving-experimentation-efficiency-at-netflix-with-meta-analysis-and-optimal-stopping-d8ec290ae5be

作为分享主义者 (sharism)，自己所有互联网公布的图文均听从 CC 版权，转载请保留作者信息并注明作者 Harry Zhu 的 FinanceR 专栏:https://segmentfault.com/blog…，如果波及源代码请注明 GitHub 地址：https://github.com/harryprince。微信号: harryzhustudio
商业应用请分割作者。

关于人工智能:译-解密-Netflix-如何提升AB实验效率

利用 Meta 剖析检测节令效应

以最优进行完结试验

参考资料