共计 1583 个字符,预计需要花费 4 分钟才能阅读完成。
更多技术交换、求职机会,欢送关注字节跳动数据平台微信公众号,回复【1】进入官网交换群
日前,在 WOT 寰球翻新技术大会上,火山引擎 DataTester 技术负责人韩云飞做了对于字节跳动 A/B 测试平台的分享。
DataTester 是字节跳动外部利用多年的 A/B 试验平台,平台自建设至今,承载了字节 500 余个业务线的 A/B 试验工作,累计已发展过 150 万次试验,当初字节跳动每天会新增试验 2000 余个,同时在 DataTester 上运行的试验有 3 万余个。
字节跳动外部有着十分浓重的数据文化和试验文化,抖音、今日头条的名字都经由 A/B 测试确定,而 A/B 测试也是整个研发链路上的必经一环。本文将以字节研发流程中的两个个案例,介绍 A/B 测试在研发全流程中的角色。
1. 产品零碎重构
今日头条是一款信息类互联网产品,它会基于数据挖掘的举荐引擎向用户举荐文章。今日头条晚期的信息流服务是应用 Python 的一项单体服务,但随着字节业务倒退的迅速,今日头条的流量也迎来了爆发式增长,产品在性能工程上的复杂度也在急剧升高。
为了优化产品,使之更加适应大流量下的响应,今日头条的信息流业务设计了一次大规模服务化重构:语言选型从 Python 切换到了 Golang,从单体服务架构演变成了分层的微服务架构。
但这个重构设计,是围绕产品性能方面的技术指标开展的,但对于用户体验的影响和业务指标的影响,却无奈通过短期察看失去论断。
为了防止简单的新零碎上线后,升高头条用户的产品应用体验,因而在重构方案设计结束后,今日头条业务破费了 6 个月以上的工夫,发展了新计划和旧计划比照的 A/B 测试,总共进行过几十次 A/B 试验,多点开启灰度测试,并一直剖析后果、迭代计划,确认改良点对业务数据指标的影响。
在半年多之后,这个简单的新零碎终于完结了 A/B 测试,并推全上线。上线后的新系统对今日头条大部分全局指标简直无影响,甚至一些要害指标获得了显示正向的后果。
2. 产品 Bug 修复
这个案例是字节直播产品的场景。该产品在设计了新的精排模型,本来冀望是想召回模型学习到更多信息,提前做一些召回合乎用户趣味的内容,晋升局部产品要害指标。但在实际操作中,因为模型配置呈现了 Bug,上线失败。
因而,该直播产品的团队针对这个 Bug 进行了修复,但只能采纳使精排模型变得更简单的计划。新的性能尽管曾经胜利跑通,但因为模型更加简单,对于用户产品体验负向影响的危险会随之升高。
为了验证新开发的性能对用户体验的影响,该团队应用 DataTester 开启了 A/B 测试,他们将用户分为新用户组、老用户组别离开启试验,通过数据察看发现,新的性能对于新用户的而言没有什么实质性影响,新用户的应用时长、留存等指标仍然是在一个特定区间稳定;但在老用户组的试验数据中,他们发现老用户在内容人均浏览时长上,有了 0.3% 的显著进步。
尽管 0.3% 是一个看起来不大的数字,但对于字节产品的用户体量而言,这种幅度的晋升,在用户内容生产时长上的本质晋升很大。上述两个案例是 DataTester 在字节跳动利用的缩影,实际上,在字节整个的研发流程中,开发、上线、BugFix、优化、重构,A/B 测试都会作为基础设施中的一环,来服务于整个研发流程。
除此之外,A/B 试验也广泛应用于字节跳动业务的方方面面,从产品命名到交互设计,从扭转字体、弹窗成果、界面大小,到举荐算法、广告优化、用户增长 …… 能够说,DataTester 曾经融入在字节的每一个业务和每一项决策中。
DataTester 以后已通过火山引擎面向内部企业凋谢服务,能基于先进的底层算法,提供迷信分流能力和智能的统计引擎,反对多种简单的 A/B 试验类型。目前,火山引擎 DataTester 曾经服务了美的、失去、凯叔讲故事等在内的上百家标杆客户,将成熟的“数据驱动增长”教训赋能给各行业。
点击跳转 A/ B 测试 DataTester 理解更多