关于ab测试:如何提供一个可信的AB测试解决方案
本文以履约场景下的具体实际为背景,介绍如何提供一个可信赖的AB测试解决方案。一方面从试验办法的角度阐述试验过程中容易被忽视的统计陷阱,给出具体的解决方案,一方面从平台建设角度阐述针对业务场景和对应束缚制订试验计划提供给用户,而不只是性能和办法由用户自由选择,因为试验办法差之毫厘,后果可能是失之千里。1 背景尽管AB测试(AB试验)的统计根底曾经有一个世纪的历史了,但大规模地构建一个正确牢靠的A/B测试平台依然是一个微小的挑战:不仅要在实验设计环节应答溢出效应和小样本的双重挑战,均衡好试验偏差与方差以确定适合的试验单元、分组办法和分析方法,给出正当的实验设计,而且要在剖析环节应对方差计算、P值计算、多重比拟、混同因素、假阴性(理论策略有成果,然而检测显示无成果)等多种统计陷阱。因而,要取得高质量的后果须要对试验和统计有专家级的了解,这无疑减少了试验门槛,难以达成任何人进行试验都可得出可信论断的指标。 本文将从试验办法和平台建设的两个视角,别离介绍如何正确地应用统计办法防止统计陷阱,以及输入什么样的平台能力,从而确保任何人应用该平台时都可得出可信论断。同时,咱们也积攒了如何进行更好的试验,以及如何利用试验来做出更好的决策,心愿能给从事相干工作的同学有所帮忙,也真诚地心愿欢送大家给出反馈或者倡议,一直优化咱们的工作。 2 走进AB测试哪个线上选项会更好?咱们常常须要做出这样的抉择。当咱们想要在两个策略之间做出决定时,现实的计划是面向同一拨用户,在两个平行时空,平行时空1体验原策略A,平行时空2体验新策略B,而后依据观测到的事实进行比拟,以决定哪个策略胜出。然而在事实世界中,不存在两个平行时空,针对同一用户,咱们只能察看到其承受策略A或策略B的一种成果,即反事实后果是观测不到的。 因而,在事实世界中,咱们通常采纳试验的办法做出决策。它将用户调配到不同的组,同一组内的用户在试验期间应用雷同的策略,不同组的用户应用不同的策略。同时,日志零碎依据试验零碎为用户打标记,用于记录用户的行为,而后依据带有标记的日志计算度量差别,并进行统计分析以排除因为噪声导致的任何差别。实验者通过这些指标去了解和剖析不同的策略对用户起了什么样的作用,是否合乎试验事后假如。 2.1 AB测试概述实证中因为不可能同时观测到同一群体在不同策略下的两种潜在后果,无奈决定哪个策略胜出,须要构建一个反事实(Counterfactual)用来代表承受策略B的群体在承受A策略时的潜在后果。 具体来讲,构建一个与实验组群体特色均值无差别的对照组,用其观测后果代表实验组群体在施加A策略时的潜在后果,此时两种后果的均值差便是策略效应大小。因为是基于样本的观测数据得出的论断,须要通过显著性剖析(Significance Test),以证实论断具备统计意义,这便是策略评估的残缺门路。 依据是否在试验前控制策略的调配,咱们将试验分为AB试验和察看性钻研(Observational Studies),在AB试验分支下,依据是否控制策略的随机调配,又将AB试验分为随机对照试验(Randomized Experiments)和准试验(Quasi Experiments)。不同的试验类型应用不同的分组办法,在肯定水平上影响着试验后剖析数据的表现形式,试验后抉择与试验类型匹配的分析方法尤为重要,间接制约着咱们是否统计意义上的迷信论断。具体分类如下: 对于大部分的试验场景,咱们能够在试验前管制对不同的试验对象调配不同的策略,然而在有些场景下,如:①测试线上演唱会流动对短视频平台的影响,思考到用户偏心,须要给全副用户施加演唱会流动策略;②在测试不同的营销邮件策略对用户影响的场景中,咱们无法控制哪些用户会最终承受策略。咱们要么不能控制策略调配,要么不能控制策略在对应的人群失效,只能采纳察看性钻研,即在天然状态下对钻研对象的特色进行察看、记录,并对后果进行形容和剖析。 在咱们能够管制对试验对象施加策略的场景,如①测试不同的产品UI对用户的影响,进而决定应用哪种UI;②疾速验证首页商品列表图素材对转化率的影响。这些典型的C端试验场景,不仅有海量用户且用户在实验组、对照组间的行为不会相互影响,能够通过随机分组的形式找到同质且独立的实验组和对照组,这类试验称之为随机对照试验,是业界掂量策略效应的黄金规范。 然而在美团履约业务场景中,如调度场景,要测试不同的调度策略对区域内用户体验的影响,策略施加单位是区域,因为区域数量少,同时区域之间各项指标(商家、运力、消费者)差别较大,采纳随机分组难以得出同质的实验组、对照组,而且因为区域之间能够共享运力,施加不同策略的实验组、对照组区域之间相互影响,不满足试验单位独立的条件。在这种场景下,咱们不能对试验对象进行随机调配,只能有抉择的进行实验组和对照组的调配,这种尽管可能控制策略调配但不能控制策略随机调配的试验,咱们称之为准试验,罕用的准试验办法如双重差分。 随机对照试验,因为其可能保障实验组、对照组两组的特色均值雷同,不会因为分组差别烦扰对实在效应的掂量,是业界掂量策略效应的黄金规范。在不满足随机对照试验束缚的业务场景下掂量策略效应,咱们采纳准试验的办法,通过改良分组办法打消实验组、对照组可观测特色的差别或使其放弃恒定差别,剖析环节采纳适配准试验场景的分析方法。 如果因为场景束缚,只能基于试验后失去的数据来进行试验的话,就只能采纳实用于察看性钻研的办法。准试验和察看性钻研尽管不是掂量策略效应的金规范,然而如果应用切当,也能够得出绝对迷信可信的剖析论断。在学界,三种不同试验类型的可信度等级如下: 2.2 AB测试的关键问题不论何种类型的AB试验,都合乎分流->试验->数据分析->决策的根本流程,以及须要满足AB试验的3个基本要素。分流是试验平台的顶层设计,它标准和束缚了不同实验者如何在平台上独立运行各自试验而不相互影响,运行试验,看似简略,然而胜利运行不同类型试验的前提是试验场景要满足其实践假如。 AB试验次要是通过观察抽样的样本来推断总体的行为,属于预测型论断,数据分析波及大量的统计学实践,稍有不慎,容易掉入统计陷阱。上述流程,任一环节出错,都可能导致谬误的论断,因而,AB试验统计一个数字容易,失去牢靠可信的统计论断并不容易。 2.2.1 AB测试的分流框架在履约技术平台,咱们通过试验掂量实在的用户反馈,以确定新产品性能的成果,如果无奈同时运行多个并行试验,将会大大减慢迭代速度。扩充同时运行试验的数量对于实现更快的迭代是必不可少的。为了减少能够同时运行的试验数量,进步并行性,并容许同时运行多个互斥试验,业界呈现了两种分流框架,一种是像谷歌、微软、脸书这种单边业务状态的公司,采纳层、域嵌套的分流框架;另一种是像Uber、DoorDash这种多边业务状态的公司,采纳基于束缚的分流框架。具体如下图所示: 基于层、域嵌套的重叠分流框架:该分流框架的特点是当时将流量随机打散做桶号标识并提前布局流量的用处,如上图所示,提前将全国流量划分为10等份并用1到10桶号来标识流量,1-6号桶的流量用于短期策略验证,7-10号桶用于长期性策略验证。为了反对同时运行多个互斥试验,晋升迭代效率,别离在1-6号桶和7-10号桶中,进一步辨别了正交桶和互斥桶,落在正交桶中的流量能够同时进入多个试验,在每进入一个试验前,从新打散一次流量,防止上一试验的残留效应做下一试验造成影响,实现了多个互斥试验的并行运行,落在互斥桶的流量,每次只能进入一个试验,用于运行不满足随机打散条件的试验。基于桶号划分的用于特定用处的一组流量汇合,咱们称为域;同一流量进入的不同类型的试验,咱们称为层。 该分流框架的长处是不仅能够实现流量复用,扩充试验并行度,而且较容易防止具备潜在交互作用的试验可能给用户带来的蹩脚体验。引入层的概念,将零碎参数划分为多个层,束缚让组合在一起可能产生较差用户体验的试验必须位于同一层,同一用户可进入不同层多个试验以试验流量复用,并避免其进入同一层多个试验,防止蹩脚的用户体验。 不足之处在于:首先,这种分流框架的一大前提是提前将流量打散,这种在大流量的单边场景下尚可,在小流量的多边场景下,难以行得通。多边场景下,思考到溢出效应,无奈间接采纳单边实体进行分流,而是采纳聚类的形式将有相互作用的多边聚合成一个大的实体,基于大的实体进行分流,思考到无限的实体数量,这种提前打散的形式难以获得平均的流量;其次,域提前规定了流量用处,这种提前隔离的形式,升高了流量利用率,无奈满足小流量场下试验效用要求,如即便在互斥域中没有试验,也无奈采纳该流量进行其它的正交试验;第三,这种提前预布局流量用处的分流框架灵活性有余,如果前期发现域的设置不合理,要扭转域的配置将付出较大的代价。 基于冲突检测的分流框架:该分流框架的特点是由实验者制订束缚,平台依据实验者制订的束缚,确保无奈防止潜在交互影响的试验没有同时曝光给用户。如微软、Uber等公司,试验平台都集成了检测交互作用的自动化零碎,以防止试验间潜在交互影响。以Uber为例,将策略看作是一组独立参数的汇合,并提前申明对应策略波及的专用参数和与其它策略共享的参数,配置试验时检测是否有任何影响雷同参数的两个试验重叠,只有它们没有重叠,便容许试验创立或更新操作。 该分流框架的长处是灵便且能最大限度的复用流量,相较于重叠流量框架,不受提前划分的域的束缚只能在特定域中进行试验,即便对应的域中此时并无其它试验。只有满足进行并行试验的条件,便能够任意圈定流量进行试验;不足之处在于:试验平台须要构建自动检测交互作用的能力。 2.2.2 AB测试满足的基本要素在运行AB试验时,要满足三个基本要素:①施加不同策略的实验组、对照组可比拟,即实验组、对照组的特色均值在试验前雷同或在试验前具备固定差别,便于试验后计算哪些差别是因为策略不同导致的;②策略之间没有烦扰,试验群体互相独立,即当咱们比拟策略A和策略B时,承受策略A的用户行为不会受承受策略B的用户行为影响;③试验群体的数量要足够,以满足效用要求,防止试验后果假阴性,即理论策略有成果然而因为样本量有余没有检测进去。 不满足因素一,试验后难以确定实验组对照组的差别是由策略导致的还是因为分组导致的,难以精确掂量策略的实在效应;不满足条件二,可能会高估策略效应。举个例子,在履约配送范畴试验中,橘色是实验组,商户A范畴的扩充,会使用户的需要从商户B转移到商户A,如果评估的是商户汇合的单量,会造成实验组单量绝对对照组多,试验环节,得出扩充配送范畴,会进步整体单量,然而当策略在全国利用后,发现单量并没有明显增加,因为试验期间察看的减少仅仅是单量转移,实验组单量转移到了对照组。不满足条件三,难以确定策略无成果是真正的无成果还是因为样本量有余,没有检测到策略成果。 2.2.3 不可漠视的统计陷阱AB试验次要是通过观察抽样的样本来推断总体的行为,属于预测型论断,波及大量的统计学实践,稍有不慎,容易掉入统计陷阱,难以得出牢靠的统计论断。 实验组和对照组之间的差别是实在的还是乐音通过显著性测验来辅助判断,要得出结论波及方差、测验形式和P值计算,这些环节充斥着统计陷阱,稍有不慎便会导致咱们通过假设检验失去谬误的论断。样本的抽样形式、散布特点以及样本量大小决定了咱们的测验形式和采纳的具体P值计算方法,试验单元、剖析单元和实验组、对照组差值类型,决定了方差计算,方差作为P值计算的一个输出,间接影响着P值后果。上述环节,疏忽任一因素,会导致P值计算错误,使咱们通过假设检验失去谬误的论断。 容易漠视的方差计算陷阱:如果不能正确的预计方差,那么P值和置信区间都将是错的,这些谬误会导致咱们通过假设检验失去谬误的论断。高估的方差会导致假阴性,而低估的方差会导致假阳性。上面是几个预计方差时的常见谬误。 两者不相等。例如,在按天交替轮转的轮转试验中,一旦确定了试验开始第一天在实验组还是对照组,后续其它天在实验组和对照组相继确定。此时,实验组、对照组两组样本不独立,如果依照独立的办法计算方差,将谬误预计方差。实际上,样本的分配机制影响着其方差计算,在AB测试中,咱们将流量划分为实验组和对照组并在实验组施加策略,而后计算实验组绝对对照组的某个度量指标的相对晋升值或者绝对晋升率,并测验该差别是否存在统计上的显著性,进而判断试验策略是否真实有效。 从上述公式能够看出,方差计算与分配机制无关,如果疏忽分配机制将导致谬误的方差计算。 评估绝对晋升或试验单元与剖析单元不统一时,谬误的方差计算形式容易低估理论方差,导致假阳性。在计算指标的绝对晋升率,如下公式所示: 容易漠视的测验形式导致的P值计算陷阱:统计学对于多大样本量即可认为核心极限定理成立并没有齐全的定论,并非所有大样本场景下的样本分布都满足正态性假如,防止有偏样本采纳默认正态分布下的测验办法。Weich t假设检验是参数检验罕用的一种测验办法,其本质上假设实验组、对照组样本均值等的渐近正态性成立,该实践实际上是建设在大样本情景下的核心极限定理根底上。统计学对于多大样本量即可认为核心极限定理成立并没有齐全的定论,这实际上也取决于原始散布自身偏离正态分布的水平。 从教训来看,若样本仅略微偏离正态总体,大于30的样本量或者就足够了。然而对于有偏样本,Ron Kohavi等(2014) 指出当样本偏度大于等于1时,一个教训准则便是只有计算样本均值的观测样本量大于$355 s^2$时才可认为核心极限定律成立。理论抽取了一个样本量为13832的流动试验,其实验组、对照组差值的抽样散布出现右偏,不合乎正态分布,如下图所示: 如果所有场景下默认采纳正态分布情景下的测验形式计算P值,容易导致谬误的P值计算。 2.3 基于一组外围形象的平台建设难以适配所有业务场景整个AB试验的过程波及大量统计学常识,正确使用书本理论知识的前提是理论业务场景满足实践假如,理论状况是很多场景不满足实践假如。在这种状况下,取得高质量的后果须要对试验和统计有专家级的了解,以及大量的工作包含:实验设计、配置、指标加工、自定义剖析等流水线工作,任一环节出错,将会导致大量的工作节约。 通过外围形象为实验者输入不同办法能力的平台建设思路,难以避免办法使用不当导致的试验相信问题,在此过程中任一设计的渺小偏差,会导致无奈比拟的实验组、对照组,从而影响试验后果。例如,事例一方差预计谬误:在试验剖析时,常常犯的一个谬误,不论分组形式是不是随机分组,在理论剖析时,依然依照样本满足独立同散布的条件计算方差,造成咱们对估计值的准确性适度自信,低估了方差,容易犯假阳性的谬误。 一个极其的例子,随机抽取100个学生用于预计该须要的均匀问题,如果被抽查的100人都是同一个学生,他们的问题只反映了一个学生的问题,对于预计所有学生均匀问题的信息含量等同于一个学生提供的信息。 如果咱们把它们当成独立的,所得的样本平均值的标准误差显然是不对的,其后果是造成咱们对估计值的准确性适度自信,即估计值的标准误差预计过小。 事例二业务场景不满足实践束缚:双重差分是咱们准试验中罕用的分析模型,它的计算过程很简略,即实验组干涉前后的均值的差减去对照组干涉前后均值的差,依据业务场景,能够抉择传统DID模型或固定效应的DID模型,但具体哪种模型适合,须要进一步看,在当下的业务场景下,哪种模型满足平行趋势假如,即在没有干涉的状况下,实验组和对照组指标的均值差别在不同工夫内保持一致,在都满足平行趋势假如下,哪种模型更优?如果不进行严格的测验,将会导致有偏预计。如下是咱们具体场景下的案例: 尽管依据大抵的场景特点,能够判断出采纳双重差分模型,然而到底采纳双重差分的哪个模型,还须要基于理论数据,做进一步验证和抉择。依据上图所示,在以后的业务场景下,并不满足传统DID模型的平行趋势假如,如果贸然应用,会造成预计偏差,工夫效应的双重差分模型和个体+工夫效应的双重差分模型,尽管都满足平行趋势假如,但从理论置信区间看,后者因为思考了策略对不同个体的差别,稳定较小,预计后果更加靠近理论值,所以应采纳后者。 3 在履约咱们如何进行AB测试3.1 多边业务模式下面临的AB测试难题溢出效应和小样本是以后业务场景下试验面临的最大挑战,其次策略施加的公平性束缚了试验分组也是咱们不得不面对的挑战。每个因素的独自制约,对得出相信试验论断将是不小挑战,而履约场景下,这些因素综合的叠加在一起,加剧了挑战。 咱们的即时配送物流零碎在多边市场中扮演着交易中间人的角色,它通过平台匹配用户、骑手、商家三方的需要,平台通过产品策略优化这一匹配过程,每一次匹配都会对同一时刻及后续一段时间内其它的匹配产生影响,具备较强的溢出效应。受溢出效应影响,试验单元的试验后果不仅取决于个体自身,还会受其余试验单元的影响。网络效应的存在违反了试验单元独立的准则,导致有偏的试验后果。 ...