关于程序员:科学地花钱基于端智能的在线红包分配方案-CIKM2020

简介：红包是电商平台重要的用户经营伎俩，本文将介绍 1688 基于端智能技术开发的 two-stage 红包散发计划。这一计划继续在线上失效，相较于原有算法有显著晋升。
一、前言
本文是作者在 1688 进行新人红包发放的技术计划总结，基于该技术计划的论文《Spending Money Wisely: Online Electronic Coupon Allocation based on Real-Time User Intent Detection》曾经被 CIKM2020 接管，欢送交换斧正！

对于作者
李良伟：阿里巴巴算法工程师，邮箱 leon.llw@alibaba-inc.com
孙刘诚: 阿里巴巴高级算法工程师，邮箱 liucheng.slc@alibaba-inc.com

二、背景介绍
用户权利（包含现金红包、优惠券、店铺券、元宝等，图 -1）是电商平台罕用的用户经营伎俩，可能帮忙平台促活促转化。围绕着权利的技术优化也层出不穷[1,2,3,4,5]。

72d5339babf91b0de1454d1a09750a44.png

图 -1: 1688 新人红包
红包发放作为一种营销伎俩，其 ROI 是咱们十分关怀的一个指标，因为它间接反映了在无限的预算内红包为整个平台促活促成交的能力。优化红包发放的 ROI 要求咱们把红包发到最合适的用户手上。而判断哪些用户适宜领到红包须要咱们在真正发红包之前判断以后用户的用意。举例来讲，一个购买用意十分明确、无论是否有红包都会下单的用户显然不适宜领到红包；相同，红包对一个当机立断、货比三家的用户很有可能起到“临门一脚”的作用。

随着 1688 业务的疾速倒退，每天都会有大量的平台新用户涌入，其中有很多用户在整个阿里经济体的数据都非常稠密，基于惯例伎俩，咱们很难对这种“生疏”的用户进行精准刻画。然而，只有一个用户进入了 APP，或多或少都会和平台产生相互作用（滑动，点击等），这种在端上实时产生的数据可能帮忙咱们对用户尤其是新用户的实时用意进行精准捕获，进而实现红包发放的决策。

本文将介绍咱们基于端智能的用户用意辨认和智能权利发放计划。

三、技术计划
从数学的角度，权利发放是一个带束缚的优化问题。优化指标是关怀的业务指标（GMV，买家数，转化率等），束缚个别是估算束缚，有时也会有其余束缚比方发放疲劳度束缚、单个用户支付红包金额束缚等。

依照之前提到的先辨认用户用意再进行权利发放这一思路，咱们提出了一个 two-stage 的求解计划。在第一阶段，咱们基于端智能技术 [6]，依据用户实时行为数据，通过刹时用意辨认网络(Instantaneous Intent Detection Network, IIDN) 辨认出用户以后用意；在第二阶段，咱们将优化问题建模成一个多选项背包问题(Multiple-Choice Knapsack Problem, MCKP), 并使用[7] 提到的 primal-dual 框架求解。在这里，咱们强调咱们对于 IIDN 的两个翻新点：

1.IIDN 最次要检测的用户用意是下单用意，然而实际发现在新人当中，用户下单的比例是比拟小的，这样咱们在进行下单用意辨认的时候会面临一个类别不平衡的问题 (下单: 不下单 = 1:10 甚至更低)，这样的类别偏差会升高常见的分类器的分类成果[8]。为了解决这一问题，受到 ESMM[11] 和 seq2seq[10]启发，咱们引入了一个辅助工作：停留用意辨认。咱们随后会从实践上验证这一做法

2. 咱们采纳 encoder-decoder 的构造，灵便地解决序列化的输出和输入

第一阶段：刹时用意辨认

ace983772e042c4d82e589895b2fdcf9.png

图 -2: IIDN 构造
图 - 2 是 IIDN 的整体构造, 它由 Embedding Layer, LSTM layer, Attention Layer, Encoder 和 Decoder 五局部组成。接下来别离介绍。

Embedding Layer
模型的输出次要是实时用户特色和红包特色，用户特色包含实时特色（端上收集到的：点击、加购等）、历史特色（用户核身、年龄等），红包特色当初只退出了面额。这些特色是高度异质的，须要进行一步解决把它们映射到雷同的向量空间中。咱们采纳 [9] 提到的嵌套技术，把原始的异质特色映射为长度固定的向量，并把该向量作为后续构造的输出。

LSTM Layer
咱们红包发放的业务逻辑是：用户在详情页产生浏览行为并返回 landing page 的时候触发决策模型，判断给该用户发放红包的面额（0 元代表不发放）。因为用户通常会产生一系列的详情页浏览行为，因而咱们收集到的数据也是高度序列化的。为了更好地形容序列化数据当中的工夫依赖关系，咱们在特色抽取环节采纳了 Long Short Term Memory (LSTM) 来捕获这种序列化信息。

Attention Layer
对于 LSTM 产出的序列化的 feature map，咱们应用注意力机制抽取当中的部分和全局依赖关系。咱们将 LSTM 每层的输入都通过 Attention 计算权重并参加最终的后果计算。这样的益处是模型不仅关注 LSTM 最终层输入，还会关注逐层的输入后果，从而减少模型对于输出信息的感知能力。

Encoder
因为用户实时特色的序列长度不固定，而红包特色和用户历史特色是动态的固定特色，咱们须要一种机制来进行无效的特色交融。受到 Natural Language Generation (NLG) 当中语句生成的启发，咱们采纳一种 seq2seq 的构造：包含 encoder 和 decoder，咱们将在下一大节介绍 decoder。这里 encoder 将之前产生的所有 feature map 作为输出，通过全连贯层产生一个固定长度的向量，这个向量囊括了进行用户用意辨认的所有信息，并作为之后 decoder 进行用意辨认的根据。

Decoder
Decoder 被用来输入最终的用意辨认后果。在最开始，咱们的模型只输入用户下单的概率，然而随着业务的深刻，咱们发现类别不平衡这一问题给后果预测造成了不小的烦扰。在进步预测精度的实际当中，咱们发现了一个乏味的景象：如果在进行下单率预估的时候在特色中退出用户在这次浏览之后是否来到这一信息，预测精度会有很大的晋升。这引发了咱们的思考：用户来到和用户下单之间存在什么样的关系。随后咱们又做了一个试验：进行用户来到用意辨认，并在特色中退出了用户两小时内是否下单这一特色。试验结果表明退出是否下单这一特色并不能给来到率预估的工作带来增益。这样的试验后果其实是合乎逻辑的：用户可能下单的前提是用户肯定要留在 APP 内不来到，前者的产生在逻辑上须要依赖后者的产生，因而在进行下单率预估的时候退出是否来到可能为模型提供肯定的信息增益；相同，用户是否来到更多取决于用户以后的心态以及 APP 是否很好地承接他，用户是否下单并不能影响用户是否来到。咱们能够认为：

08d5adaef88b4dc6b865af29f4d46fdb.png

由上式能够很天然地推导出下式：
363d999acf97497797492fc73d76bc89.png
能够看到，在进行下单率预估的时候（P 的计算），用户停留用意辨认（S 的计算，或者说来到用意，二者等价）将能够用来作为辅助工作晋升预测成果。咱们的试验也验证了这点。

只管在咱们这一工作当中，咱们只须要预测停留用意和下单用意，然而在之后扩大的场景中，更多用意也能够被辨认：比方用户去往搜寻的用意，用户去往新人专区的用意等。所有用意其实都像下单用意和停留用意一样存在一个逻辑上的先后关系（至多所有用意的产生都依赖于用户不来到），这样的关系使得咱们想到了机器翻译当中语句生成：后一个单词的生成依赖于前一个单词的预测，这启发了咱们在 encoder-decoder 的根底上采纳 seq2seq 的思维：decoder 会学生成 S，并在此之上生成 P。这样做有两个益处：

1. 在肯定水平上缓解了咱们一开始提到类别不平衡问题：只管不是所有用户都下单，然而所有用户肯定会来到 APP，来到用意辨认并不存在类别不平衡的问题

2. 咱们这一套用意辨认框架能够扩大到有限多的用意辨认当中，只有提供先验的逻辑先后关系

咱们应用一般的 RNN 实现每一个用意的辨认。

loss 设计
全局的 loss 是由停留用意辨认和下单用意辨认两个工作的 loss 相加失去：

e73f5eb7c2ca496baf5fecd877cfab3f.png

其中 CE 示意穿插熵：
1406fc71e7d24aac9debd0bedcb165c7.png
第二阶段：求解 MCKP
依据第一阶段失去的实时用意 $P$ 和 $S$，咱们在这一阶段实现红包的最终发放。咱们将这一问题建模成一个多选项背包问题，咱们作以下定义：

1.j 用来索引红包，示意第 j 个红包，i 用来索引用户，示意第 i 个用户
2.c_j 示意第 $j$ 个红包的面额
3.x_{ij} = 1 当且仅当第 i 个用户被发到了 j 红包
4.\gamma 示意用户停留趣味阈值，咱们只给那些停留用意足够低的用户发红包，停留用意如果不够低咱们认为他还会持续浏览，因而这次先不发放红包
5.P_{ij}、S_{ij} 别离示意第 $i$ 个用户支付到第 $j$ 个红包当前的下单率和停留率
6.B 示意全局估算束缚
使用以上的定义，红包发放问题能够被写作：对于任意的用户，满足 S_{ij} <= gamma，咱们求解以下最优化问题：

6124daf9c391424ca6559df3a64eb5b1.png

为了求解以上问题，咱们采纳 [7] 提到的 primal-dual 框架。定义 alpha 和 beta_j 别离是相干的对偶变量，据此框架咱们能够在线求解以上问题。具体来讲，x_{ij}能够依据以下公式求得：
3f745cfa0c4a4ced9c2a8f43fb3a98da.png
通过上式求得的 x_{ij}和 j，咱们就失去了最终的调配计划。

四、零碎部署
目前在团体做端智能首推 jarvis 平台，在这里给相干同学点赞，在最开始的时候没少麻烦 jarvis 同学解决问题。使用 jarvis，咱们能够收集端上实时数据并将深度模型部署到端上。咱们次要是将 IIDN 部署到端上，MCKP 决策模型因为须要思考全局最优，所以放在了服务端。

2ba8633c2150fef4e2af4c9b124cdafe.png

图 -3: 零碎大图
图 - 3 是咱们整体的零碎架构，每一个用户在详情页回退到 landing page 的时候会触发决策模型，IIDN 首先依据端上采集到的行为数据辨认出用户的下单和停留用意，随后该用意会被推送到服务端参加最终的红包决策。咱们这套零碎在日常线上继续失效，同时还参加了 0331 商人节，助力买家数的晋升。

五、试验
试验设置
咱们从 1688 客户端收集数据，用到的特色如下表：

6e084ad483e142968d4ffa54914bcae2.png

试验分为两局部：离线试验和在线试验。离线试验次要验证 IIDN 对于用意的辨认成果，验证指标是 AUC 和 logloss；在线试验次要验证咱们二段式建模对于红包发放的成果，次要的验证指标是增量买家老本 (increment cost, ic)，它被用来掂量每带来一个增量买家须要耗费的老本，计算公式如下：

23b009e9fa994e56b5a772b0909b9e39.png
离线试验
在离线试验环节，咱们别离应用以下办法进行下单用意辨认，并进行比拟：

1.Logistic Regression (LR)
2.Gradient Boosting Decision Tree (GBDT)
3.DNN + RNN [12]
4.IIDN-single-LSTM（单层 LSTM）
5.IIDN-non-attention（无 Attention 机制，应用简略的全连贯）
6.IIDN-non-auxiliary-task (没有辅助工作的 IIDN)
7.IIDN
离线后果如下表：

dd6fb5b41ede4295973ae4c12fd08158.png

能够看到 IIDN 达到最高的 AUC 和最低的 Logloss，这证实了 IIDN 的合理性。

在线试验
咱们次要和另外三个发放计划做比拟：

1. 不发：该桶所有用户均不发红包
2. 全发：该桶所有用户均发红包
3.uplift：咱们采纳广告营销当中罕用的 uplift 计划，对每一个用户发放使他转化率晋升最大的面额，同时该面额带来的转化率晋升须要大于肯定的阈值，否则不发放红包
在线成果如下表：

3a5e52f223c14fef9aa57be7145f361d.png

能够看到只管全发桶带来的转化率晋升最显著，然而它也带来了最大的增量买家老本。咱们提出的计划不仅绝对天然转化率晋升了 25.7%，同时也比全发桶的增量买家老本缩小了 44.3%，这证实了咱们计划的优越性。
模型剖析
学习曲线

56e0e7b8f79b7e3f36cce0b1049de240.png

图 -4: 学习曲线
图 - 4 展现了不同办法的学习曲线，能够看到 LSTM, Attention 以及停留用意辨认工作均能够起到减速模型训练的成果。

枯燥性剖析
失常来讲，红包面额越大，对于用户的刺激作用也越大，用户下单率曲线应该是一条对于红包面额枯燥递增的曲线，咱们试验失去的曲线如下图：

e785eff76bcdeca2d42495cec7bafbda.png

图 -5: 枯燥性曲线
能够看到所有模型根本出现枯燥性，其中 IIDN 更加合乎真实情况。

六、参考文献

竞争网络下的智能红包发放(ATA)
花钱，咱们是认真的 — 基于用户权利敏感与大规模分组背包的红包发放算法(ATA)
2018 双 11：用户来而未购？用户购买用意辨认与惊喜红包新玩法(ATA)
社交营销（1）：双 11 盖楼，红包有多少，楼有多高！| 基于社交裂变的 C2C 红包智能投放(ATA)
商家增长引擎系列二：全生命周期商家建模与直通车智能红包(ATA)
Jarvis 端上算法平台介绍(ATA)
Agrawal, Shipra, Zizhuo Wang, and Yinyu Ye. “A dynamic near-optimal algorithm for online linear programming.” Operations Research 62.4 (2014): 876-890.
Chen, Ken, Bao-Liang Lu, and James T. Kwok. “Efficient classification of multi-label and imbalanced data using min-max modular classifiers.” The 2006 IEEE International Joint Conference on Neural Network Proceedings. IEEE, 2006.
Guo, Long, et al. “Buying or browsing?: predicting real-time purchasing intent using attention-based deep network with multiple behavior.” Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2019.
Sutskever, Ilya, Oriol Vinyals, and Quoc V. Le. “Sequence to sequence learning with neural networks.” Advances in neural information processing systems. 2014.
Ma, Xiao, et al. “Entire space multi-task model: An effective approach for estimating post-click conversion rate.” The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval. 2018.
Wei, Ermo, Drew Wicke, and Sean Luke. “Hierarchical approaches for reinforcement learning in parameterized action space.” 2018 AAAI Spring Symposium Series. 2018.

延长浏览

386ecdcbf98a403db932936d3adcd472.png

延长浏览《阿里巴巴 B2B 电商算法实战》点我购买
举荐语：本书是阿里巴巴 CBU 技术部（1688.com）深耕 B2B 电商 15 年的经验总结。阿里巴巴 B2B 在策略状态上经验了信息平台、交易平台和营销平台的降级迭代，本书聚焦营销平台商业状态背地的算法和技术能力，试图从技术和商业互为驱动的视角论述技术如何赋能业务，并联合阿里巴巴团体在根底设域和算法翻新上的积淀，打造出智能 B2B 商业操作系统。

原文链接：http://click.aliyun.com/m/100…
本文为阿里云原创内容，未经容许不得转载。