干货在拉斯维加斯程序员如何靠bandits算法干掉老虎机

AB测试：从埋点到弃疗

AB测试弃疗第一步：

不论是应用频率学派还是贝叶斯学派的办法，咱们须要决策还是要走AB测试的一整个流程，然而很多时候应用AB测试来做所有决策的机会成本太高，人力老本太高（数据科学家太贵），较差的版本带来的损失等等起因让应用AB测试做数据驱动沦为了一句口号。

AB测试弃疗第二步：

即便一个开发者下定决心走上了利用AB测试做数据驱动的路线，想要搭建一个自有的AB测试平台老本太高，而应用第三方的AB测试服务又短少灵便的数据分析能力。

如果某个事件没有埋点的话，想要做AB测试就只能SDK从新发版了，在SDK还没有达到肯定覆盖率时还是没有方法做AB测试，于是应用AB测试做产品迭代向后延期直到被遗记。AB测试弃疗。

AB测试弃疗第三步：

即便一个开发者用上了友盟+的统计SDK，迷信的做了自定义埋点，迷信的做了用户的分流，预估了样本数，正确的收集到了数据，正确的做了AB测试，而后发现两个版本并没有区别。或者有时甚至发现新的版本还更差（cue一下被用烂的Facebook的例子）。

作为一个经营你怎么给老板汇报你的负面后果，你作为一个技术团队的大佬怎么抉择改版的问题。AB测试弃疗。我已经也去问过一个大佬，为什么AB测试这么成熟而有用的办法在中国还不那么遍及呢？大佬的说：每一次改版/经营流动后大家都等着去邀功了，谁还想着看数据分析后果呢？

在很屡次做AB测试的过程中，还有大佬问有没有迭代更快的AB测试算法呢？有没有不那么严格的AB测试呢？在经营场景的时候被问的最多的问题就是：这个流动就搞3天，你们做AB测试须要多久？你们能不能在经营流动前做AB测试？这类直击灵魂的问题。通过深刻的沟通，对于这类问题的AB测试需要其实是心愿可能在缩小危险的状况下更快的，主动的优化计划。

AB测试疗法

对于这些问题咱们有没有什么好的办法去解决呢？当然是有解法的。对于第一和第二步AB测试弃疗的起因的解法只能是进行科学化的埋点首先满足次要的统计需要，因为AB测试是建设在统计模块根底上的。对于AB测试弃疗第三步的解法就是多臂赌博机（Multi-armed bandits）。

多臂赌博机 Multi-armed bandits

那么这种能够主动优化找到最佳计划的算法到底是怎么回事呢？这种算法是如何实现更快的，主动的优化计划的抉择呢？

张三在拉斯维加斯

上面咱们讲一个张三去拉斯维加斯赌博的故事（毕竟统计学就是起源于赌博）。话说有一天赌徒张三带着本人的积蓄来到拉斯维加斯，想要凭借着本人黑科技眼镜和最近钻研的bandits算法赢光拉斯维加斯的赌场成为赌圣。

依据他的多年赌博教训，赌场的每个老虎机的赢率是不同的，然而每个老虎机的赢率是不会变动的，依据江湖风闻这家赌场存在一个老虎机赢率大于50%，他的策略就是找到那个赢率最大的老虎机。

那么张三该如何找到那个赢面最大的老虎机呢？一个最简略的策略就是将赌场里每个老虎机都尝试一遍，而后把每个老虎机的赢率都算一遍，而后选取那个赢率最大的老虎机。这个办法相似于AB测试都是将流量均匀的分给了很多个计划。

这个办法的一个显著毛病就是试错老本很高，而且最初能力发现赢率最大的老虎机。如果咱们可能在尝试的过程中发现一些计划可能不是最佳，那么咱们就不在那些次佳的计划下面浪费时间和精力，那么咱们是不是就能够更快的，花更少的钱找到最佳计划呢？那么问题来了，咱们应该如何定义哪个算法在寻找最佳计划的时候更优呢？

这里计算的就是如果晓得最佳计划的赢钱数减去bandits算法在摸索最佳计划的赢钱数的差。

张三的bandits算法

张三作为一个赌徒天然是晓得一些bandits的算法的，那么他打算应用怎么样的策略呢？他从徒弟那里学到的是Epsilon-greedy和Upper bound confidence（UCB）的办法。

Epsilon-greedy的算法就是Epsilon比例的次数抉择非最佳的计划，1-Epsilon比例的次数抉择以后最佳的计划。Epsilon就是须要人工抉择的比例，比方10%的时候都是抉择非以后最佳的计划，而90%的时候抉择以后最佳的计划。

然而这个办法有一个显著的问题，徒弟临行前通知他应用这个bandits的办法可能会陷入部分的最优解很久都没有方法找到全局最优解，就是不肯定可能找到那个赢率最高的老虎机。徒弟千叮咛万嘱咐让他小心应用这个bandits 的办法。

于是张三就决定应用UCB这个算法来赌，UCB的算法是怎么实现的呢？

这个是每个老虎机的得分，后面一项就是这个老虎机的均匀赢率，第二项是和尝试次数无关的bonus项，其中t是目前试验的次数，而T_{ij}则是这个老虎机被尝试的次数。第二项bonus前还能够有一个系数来调节bonus项的影响大小。

每次试验实现后从新计算每个老虎机的得分而后抉择得分最高的那个老虎机进行下一个试验。UCB的bandits算法在足够长的工夫是肯定能够找到最佳计划的。一般来说UCB的算法在regret的定义下是优于Epsilon-greedy的。

李四的bandits算法

话说那边张三还有一个师兄唤做李四，早年已经在贝老爷子（贝叶斯）门下修习过贝叶斯大法。贝叶斯大法有一个微小的劣势就是它和吸星大法个别能够利用他人修习的成绩，这就是贝叶斯外面的先验散布（priors）。

李四在暗中察看着张三在老虎机上的试验并且记录下来每个老虎机的赢率。然而李四也不能期待过久，等到张三发现赢率最大的老虎机的时候他就没法靠那个老虎机赢钱了。于是李四在感觉本人积攒够肯定数据后下场了，他应用的是基于贝叶斯的Thompson sampling的办法。

在张三尝试的根底上，李四给了每个老虎机了一个基于Beta散布的先验概率，而后本人也开始寻找赢率最大的老虎机，他的每次试验都是基于Beta散布取到一个随机数，而后抉择随机数最大的老虎机进行试验。当老虎机积攒了更多的数据，Beta散布的方差也越小，每次选取的随机数也更靠近于均值，而当老虎机积攒了较少的数据时，Beta散布的方差也越大，每次选取的随机数也会忽大忽小。

张三徒弟王五的bandit算法

张三的徒弟其实也早早来到了拉斯维加斯。他通过外部情报晓得其实每个老虎机的赢率是会随着很多因素变动的，比方是否是周末，这个人是男是女等等。

而张三和李四的算法都是没有思考一些其余的内部因素的，这类思考其余内部因素的bandits算法叫做contextual bandits。张三徒弟应用的是基于UCB算法+ridge regression的LinUCB算法。

欲知张三，李四，王五到底谁最快找到了那个传说中的老虎机，还请持续往下看。

bandits和AB测试应该什么时候应用呢？

图来自于VWO的网站

bandits算法次要解决的问题是如何更快的和以更小损失的找到最佳计划。上图就是bandits在寻找最佳计划中的流量调配的优化。bandits可能实现以最小的损失寻找最佳计划。

为什么还要做AB测试呢？

首先，AB测试次要用于领导重要的商业决策/产品的版本迭代，而这个决策可能是有很多个指标独特影响的，bandits当初只能是基于繁多指标的优化。当然也能够把多个指标叠加成为一个复合指标，然而bandits的优化指标就是繁多的一个指标。

其次，AB测试次要实用于取得各个版本的优劣的统计相信（statistical significance）。这么说比拟形象，就是你花了工夫开发进去了一个新的版本，你须要确信的晓得这个版本到底有没有之前的版本好，到底好在哪里？到底是留存晋升了还是用户的应用时长晋升了。

这些晋升和升高的常识取得是能够应用在产品之后的迭代中的，而bandits是无奈帮你剖析失去这些常识的。

那么什么时候应该用bandits算法呢？

当你关怀的问题和张三一样只是转化率，留存率等等的繁多指标时并且你不在乎数据后果的解释和剖析的时候。当你的经营流动只有短短的几天或者一天时，你没有工夫等到AB测试达到统计相信（statistical significance）的时候，这就是一些大佬们和App开发者提到的更放慢的AB测试吧。还有就是如果你有一些长期须要优化的指标，而这些指标常常发生变化，那么这个也是bandits的一个重要的利用场景。

图来自于vwo的blog

总而言之，AB测试适宜测试一些变动周期较长的变动，取得的常识应该具备泛化能力。而bandits算法适宜一些变动快周期短的优化场景，取得的常识不肯定具备泛化能力。

友盟+的bandits应用

在友盟+的U-Push产品里笼罩了大量的内部用户，而大量的开发者的Push策略都是非常简单的定时播送，而共性的定制化的发送策略简直没有（除了头条系）。即便开发者想要基于已有的工具对发送工夫和发送内容进行优化，现有的标签和用户行为数据积攒也不会很充沛。

国内的友商们都还没有这个性能也是因为他们的数据量远远没有友盟+的数据覆盖度大。而美国的很多针对开发者服务的平台如Recombee，airship，Leanplum等等不仅仅实现了发送工夫上的优化，并且实现了基于用户生命周期和其余标签的全链路闭环的用户促活和防散失的产品。

咱们将来的工作是为了实现这个十分user-friendly的产品，而咱们的终点是对发送工夫的优化即LeanPlum的性能。如果咱们可能在用户应用App的时候或者是承受Push音讯志愿比拟强的时候去发送这个音讯，那么音讯触达用户当前用户也更加违心关上。这样实现了进步了用户的应用体验和更高的Push点击率的双赢场面。

友盟+的工夫优化计划就是基于Thompson sampling的办法，应用Beta散布来给用户+App+时段粒度的打分。

咱们发现应用Collaborative filtering可能进步那些数据里没有点击的用户的点击，而Thompson sampling则可能更好的确定那些有点击用户的最佳发送工夫。

那么怎么样可能把Collaborative filtering和Thompson sampling联合在一起进步用户的Push体验和点击率将是将来摸索的方向。

故事的终局

故事的最初张三，李四，王五都把积蓄都输完了，而后来到了拉斯维加斯，因为他们不晓得gambler‘s ruin这个统计原理，这个故事通知咱们还是要远离赌博，小赌不怡情，大赌更伤身。

干货在拉斯维加斯程序员如何靠bandits算法干掉老虎机

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

干货在拉斯维加斯程序员如何靠bandits算法干掉老虎机

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复