1、什么是 A/B 试验
A/B 试验也被称为 A/B 测试,试验的基本思路是在线上流量中取出一小部分(较低危险),齐全随机地分给原策略 A 和新策略 B(排除烦扰),再联合肯定的统计办法,失去对于两种策略绝对成果的精确预计(量化后果)。
这一套基于小样本的试验办法同时满足了低危险,抗干扰和量化后果的要求,因而不管在互联网产品研发还是科学研究中,都被宽泛应用。
A/B 试验的利用一
Instead of saying “I have an idea,” what if you said “I have a new hypothesis , let’s go test it, see if it’s valid, ask how quickly can we validate it.” And if it’s not valid, move on to the next one. —— Satya Nadella CEO, Microsoft
微软 CEO Satya Nadella 在 business insider 采访中,对于假设检验的这一段答复简练地形容了微软基于试验 - 剖析 - 决策的数据驱动文化。
事实上,微软也是世界上最早采纳 A/B 试验评估每一个重大 feature 的科技公司之一,从 bing 的搜寻排序到 MSN 的交互设计,数据驱动的决策无处不在,每年为微软躲避大量危险并发明可观回报。
下图,从 bing 这一侧面展现了微软试验平台同时运行的试验数量十年以来的井喷式倒退。
A/B 试验的利用二
另外值得一提的是,这一套基于假设检验的试验办法并非科技公司独创,其影响远比咱们设想得深远,可靠性也曾经失去了长足的验证。
比方,在医学界,每一种新型药物研发都会随同着一系列动物试验和临床测试,这些试验的成果都会以相似但更为严格的假设检验办法进行评估,最终被认定平安无效的药品才会进入市场,造福患者。
下图所示就节选自某种放射性疗法在乳腺癌医治中的有效性报告,红框中的 95%CI(95% 置信区间)和 p(p-value)就是假设检验中罕用的统计术语。
2. 为什么要开 A/B 试验
现在,大多数互联网产品横蛮成长的时代曾经过来,人口红利到顶,产品策略须要从快糙猛的跑马圈地形式转向深耕细作精细化经营形式,要精细化经营,就须要采纳数据来驱动。
数据驱动的必要性何为数据驱动?试想以下几种场景:小 A 凭着丰盛的教训间接批改了产品的线上策略,一周后发现成果不升反降,遂下线。小 B 和小 C 同时上线了两个产品性能,一周后产品数据有降落,都认为是对方的问题,谁也不肯接锅。
小 D 上线了一个新策略,随后进入十一黄金周,用户交互有所降落,小 D 感觉肯定是假期湮没了本人的辛苦奉献,但也辩不明确,无处申冤。
小 E 辛苦工作一整年,开发了 365 个不同的性能上线,年初写总结时却写不出到底在哪些方面到底奉献了多少。想必不论是研发还是产品经营的同学,都不心愿本人辛苦工作过后落入上述的几种难堪的地步中,因而数据驱动业务增长就显得很有必要。
那么数据变动和产品动作之间到底存在什么样的因果关系呢?
假如,某互联网公司承载了上亿规模的 DAU,每天有数以百计的新个性期待上线,一方面业务人员无奈承当其中任何一个谬误个性间接影响上亿用户体验的严重后果,另一方面业务人员又心愿可能拆散并量化每个个性的影响。
因而,咱们须要设计并保持应用一套数据驱动的办法,使得业务人员能够以较小的危险对新 feature 进行评估,踊跃试错积攒教训;并且咱们设计的该办法有能力排除其余因素(比方同时开发的其余 feature 以及工夫因素等)的烦扰;最初,除了‘好’或者‘不好’,咱们心愿这个办法最好也可能给出 定量的后果。
如何做到数据驱动?为了解决上述问题,广泛应用的方法论是小流量随机试验,也就是咱们常说的 A/B 试验。
在推崇“数据驱动增长”的字节,A/B 试验是一种信奉。在通过多年的外部业务的打磨,目前已通过火山引擎正式把 A/B 试验平台对外服务,取名为 DataTester。
它基于先进的底层算法,提供迷信分流能力,提供智能的统计引擎,试验后果牢靠无效,助力业务决策。
深度耦合举荐、广告、搜寻、UI、产品性能等多种业务场景需要,为业务增长、转化、产品迭代、策略优化、经营提效等各个环节提供迷信的决策依据,让业务真正做到数据驱动。
DataTester 通过抖音、今日头条等字节业务多年验证,截至 2022 年 8 月,已在字节跳动外部累计实现 150 万次 A/B 试验。此外也曾经服务了美的、失去、凯叔讲故事等在内多家标杆客户,将成熟的“数据驱动增长”教训赋能给各行业。
点击跳转 火山引擎 DataTester 官网 理解更多