关于美团:多场景多任务学习在美团到店餐饮推荐的实践

随着举荐算法技术的一直倒退，跨场景学习曾经受到了越来越多的钻研人员的关注。美团到餐算法团队受到业界相干技术的启发，一直摸索到店餐饮多场景举荐的优化问题，在多场景多任务学习的举荐畛域中积攒了较多的利用教训。团队应用到店餐饮全域举荐场景数据训练对立的多场景多任务学习模型，缩小了重复性开发，并在多个到店餐饮举荐场景进行落地，获得了较为显著的成果。

本文具体论述了美团到店餐饮业务中多场景多任务学习的解决方案，基于该计划造成的学术论文《HiNet: Novel Multi-Scenario & Multi-Task Learning with Hierarchical Information Extraction》曾经被国内数据工程会议 ICDE 2023 收录。

随着网络信息和服务的爆炸式增长，举荐零碎曾经成为为用户提供高质量个性化决策倡议和体验的要害组件。传统的举荐零碎，模型服务通常须要为特定场景独自进行定制化的开发，以适配不同场景下数据分布和特色空间的差别。然而在美团等工业互联网平台中通常存在多种多样的举荐场景（例如首页信息流、垂类子频道等）作用于用户拜访的决策链路，同时基于每个场景的个性化举荐模型再对展现我的项目进行排序最终出现给用户。

在美团到店餐饮（以下简称到餐）平台中，随同业务精细化的发展趋势，越来越多的场景须要对举荐零碎进行定制化的建设，以满足用户到店就餐的个性化需要。如下图 1 所示，事实中用户往往会在多个不同场景之间进行浏览、点击，并最终成交。

但随着举荐场景数量的减少，传统地针对单个场景独立开发举荐模型，往往会导致如下问题：

仅依据单场景本身的数据进行建模，无奈利用到用户在跨场景中丰盛的行为信息，漠视了场景共性信息，特地是思考到多种场景中可能会存在反复展现的商品（在上图 1 中，红色矩形框圈中的其实是雷同的商品）。
一些长尾的业务场景因为流量较小且用户行为较为稠密，数据量不足以让模型无效地进行建模。
因为每个场景的特色开掘、模型训练和上线部署是独立开发且互相隔离的，这会大大增加计算成本和保护累赘。

总的来讲，举荐算法对各场景独自建模存在诸多的局限性。然而，简略地将多个场景数据集进行合并训练一个排序模型来提供服务，并不能无效地捕捉到每个场景的特有信息。

此外，除了多场景举荐问题，每个场景中的用户满意度和参与度等通常都存在不同的掂量指标须要独特优化，例如点击率（CTR）和点击转化率（CTCVR）。因而须要开发一个无效和对立的框架，来解决这种在多个场景中优化各种指标复杂性的问题（即多场景多任务优化问题）。

在最近的一些钻研中，相干办法往往是将多场景举荐做为一个多任务学习（Multi-Task Learning，MTL）问题进行建模，并且此类办法大多应用多门控混合专家（Multi-gate Mixture-of-Experts，MMoE）网络框架作为模型改良的根底来学习场景之间的共性和个性。然而，这种基于 MTL 的办法往往将多个场景的数据信息投影到同一个特色空间进行优化，这很难充沛捕捉到具备多个工作的泛滥场景之间的简单关系，因而也无奈进一步晋升多场景多任务学习模型的性能。

从直觉来看，多场景和多任务的信息建模应属于不同档次的优化，应该进行分层解决。因而，在本文中，咱们提出了一种 层次化信息抽取网络（Hierarchical information extraction Network，HiNet）。具体来说，咱们设计了一个端到端的两层信息抽取框架，来独特建模场景间和工作间的信息共享和合作。

首先，在场景抽取层（Scenario Extraction Layer），HiNet 可能通过独自的专家模块提取场景共享信息和场景特有信息。为了进一步增强对以后场景的示意学习，咱们设计了场景感知注意力网络（Scenario-aware Attentive Network，SAN），显式学习其余场景对以后场景的信息表征奉献水平。

而后，在工作抽取层（Task Extraction Layer），利用自定义的由工作共享和工作特有专家网络组成的门控网络，无效地缓解了多任务学习中共享信息和工作特有信息之间的参数烦扰。

通过在模型构造上拆散场景层和工作层的信息提取，能够将不同场景下的多个工作明确划分到不同的特色空间中进行优化，从而有利于晋升模型性能。

整个论文的次要翻新点如下：

咱们提出了一种新鲜的多场景多任务学习模型 HiNet，用于优化多场景下的多种工作指标，其中创新性地利用了分层信息抽取架构。
在场景信息抽取层中，咱们提出了场景感知注意力网络 SAN 模块，进一步加强了场景信息建模的能力。
离线评估和在线 A / B 测试的试验证实了 HiNet 优于以后次要办法。目前，HiNet 已在美团到餐中的两个场景中进行了全面部署。

原始的特色输出中次要包含了用户画像特色、用户行为特色、以后场景特有特色和商品特色，其中的数值特色首先被转化为分类特色，而后将所有分类特色映射到低维向量空间来取得 $x$。思考到美团到餐平台中具体的优化指标，咱们别离为每个场景设置了 CTR 和 CTCVR 两个工作。

本大节将开展介绍层次化信息抽取网络模型 HiNet。如下图 2 -(A)所示，HiNet 模型中次要包含场景抽取层和工作抽取层两个外围模块。其中在场景抽取层次要包含了场景共享专家（Scenario-shared expert）模块、以后场景特有专家（Scenario-specific expert）模块以及场景感知注意力网络，通过这三局部的信息抽取，最终造成了场景档次的信息表征；而在工作抽取层中，咱们应用自定义门控网络模块 CGC（Customized Gate Control）来对以后场景的多任务学习进行建模。下文将具体介绍上述提到的 HiNet 模型的要害局部。

场景抽取层的作用是提取场景特有的信息表征和场景间共享的有价值信息表征，这是进步工作档次信息表征能力的根底。在场景抽取层，次要包含场景共享专家网络、场景特有专家网络和场景感知注意力网络三局部，下文将顺次进行介绍。

场景共享 / 特有专家网络

思考到用户跨场景的交叉式行为以及多个场景间商品重叠的景象，到餐业务中多个场景的数据之间存在着有价值的共享信息。因而在策略上，咱们设计了场景共享专家网络。这里受到混合专家网络架构 MoE（Mixture of Expert）的影响，场景共享专家网络是通过应用子专家集成模块 SEI（Sub-Expert Integration module，如图 2 -(C)）生成的。

具体来说，场景共享专家网络的最终输入为 $G$，其公式为：

场景感知注意力网络

如上文所述，不同场景之间存在肯定水平的相关性，因而来自其余场景的信息也能够对以后场景的信息表征做出奉献，从而加强以后场景的信息表达能力。思考到不同场景间对彼此的表征能力奉献不同，咱们设计了场景感知注意力网络（Scenario-aware Attentive Network，SAN）来掂量其余场景信息对以后场景信息表征奉献的重要性。具体来说，SAN 蕴含两局部输出：

为了解决多任务学习中的负迁徙问题，在工作抽取层，咱们受到 PLE（Progressive Layered Extraction）模型的启发，采纳了自定义门控网络 CGC 模块。

自定义门控网络

自定义门控网络次要由两局部组成：工作共享专家网络和工作特有专家网络。前者次要负责学习以后场景中所有工作中的共享信息，后者用于提取以后场景中各个工作的特有信息。

咱们提出的 HiNet 的最终损失函数是：

数据收集：咱们收集了美团到餐平台中的六个场景（场景编号为 a 到 f）的用户日志数据作为咱们的多场景多任务训练和评估数据集，其中场景 a 和 b 是大场景数据集。相比之下，c 到 f 被作为小场景数据集。

评估指标：咱们别离思考每个场景的 CTR 和 CTCVR 工作的性能评估，并采纳 AUC（Area Under ROC Curve）作为多场景多任务数据集的评估指标。
模型比照：为了偏心地比照咱们提出的 HiNet 模型与业界的 SOTA（State-Of-The-Art）模型，咱们应用雷同条件的试验环境和模型参数量，并对每个模型进行了充沛调优和屡次试验。具体比照的模型如下：

多任务学习模型：

Shared Bottom：该模型是一个具备硬参数共享的神经网络模型。
MMoE：该办法应用灵便的门控网络调整专家网络示意信息，并最终应用塔单元交融每个工作的所有专家网络示意信息。
PLE：该模型基于 MMoE，将专家网络显式划分为工作共享专家和工作特有专家，无效缓解了“跷跷板”景象带来的负迁徙问题。

多场景学习模型：

HMoE：该办法由 MMoE 改良而来，对多个场景的预测值进行建模，并针对以后场景优化工作预测后果。
STAR：该办法通过星型拓扑构造结构一个共享的和场景特有的网络，用于学习以后场景的信息表征。

须要指出的是，上述用于比照的模型最后只是为了单纯解决多任务学习或多场景学习的问题而提出的。为了实现偏心的试验比拟，咱们在试验中对相干比照模型做了自适应扩大，以满足多场景多任务建模的需要。

表 2 展现的是咱们在美团到餐平台中六个场景下的各个模型的性能比照。从后果能够看出，咱们提出的 HiNet 模型在所有场景的 CTR 和 CTCVR 工作指标上都优于其余比照模型，这证实了 HiNet 在多场景多任务建模的劣势。

为了钻研 HiNet 模型中每个要害组件的成果，咱们设计了两个 HiNet 模型的变体用于融化剖析。具体如下：

HiNet（w/o hierarchy）：示意去掉了信息抽取的层级架构，间接采纳 CGC 网络进行多场景多任务学习建模。
HiNet（w/o SAN）：示意的是在场景抽取层中删除 SAN 模块后的 HiNet 模型。

从表 3 的试验后果，咱们能够察看到，变体模型 HiNet（w/o hierarchy）在所有指标上都有重大的性能降落，这表明分层信息抽取架构能够无效地捕捉跨场景的共性和差别，从而进步模型的性能。相似地，在场景抽取层去掉 SAN 模块后，变体模型 HiNet（w/o SAN）在多个场景下性能也有显著的降落，这表明 SAN 模块学习到的权重信息能够无效地加强场景抽取层的信息表征能力。

为了进一步验证咱们提出的 HiNet 模型的在线性能，咱们在美团到餐平台中的场景 a 和 b 中部署了 HiNet 模型，并与基线模型进行了为期一个月的在线 A / B 测试。

从表 4 能够看出，HiNet 模型在多个场景的 CTR 和 CTCVR 指标中均超过了基线模型，并且在订单增益上有显著的晋升，这进一步阐明了咱们提出的 HiNet 模型的有效性。目前，HiNet 模型曾经全面部署在上述两个业务中，并为业务的增长做出了肯定的奉献。

多场景多任务建模是目前举荐零碎中最要害和最具挑战性的问题之一。以往的模型次要通过将所有信息投影到同一个特色空间来优化不同场景下的多个工作，这导致模型性能存在有余。

在本文中，咱们提出了层次化信息抽取网络 HiNet 模型，它利用分层优化架构对多场景多任务问题进行建模。在此基础上，咱们在场景抽取层设计了场景感知注意力网络模块 SAN 来加强场景的示意学习能力。离线和在线 A / B 测试试验都验证了 HiNet 模型的优越性。

值得一提的是，目前业界曾经呈现了大量的图神经网络在举荐模型上的利用。受此启发，在将来的工作中，美团到餐算法团队将图神经网络的信息传递能力联合到多场景多任务学习建模的计划中，持续实际咱们的办法，并进一步设计更加欠缺的模型，来解决在美团到餐平台中存在的简单的多场景多任务建模问题。

周杰、先帅、文豪、薄琳、张琨等，均来自美团到店 / 平台技术部。

[1] P. Li, R. Li, Q. Da, A.-X. Zeng, and L. Zhang,“Improving multi-scenario learning to rank in e-commerce by exploiting task relationships in the label space,”in Proceedings of the 29th ACM International Conference on * Information & Knowledge Management (CIKM), 2020, pp. 2605–2612.
[2] X.-R. Sheng, L. Zhao, G. Zhou, X. Ding, B. Dai, Q. Luo, S. Yang, J. Lv, C. Zhang, H. Deng et al.,“One model to serve all: Star topology adaptive recommender for multi-domain ctr prediction,”in Proceedings of the 30th * ACM International Conference on Information & Knowledge Management (CIKM), 2021, pp. 4104–4113.
[3] J. Ma, Z. Zhao, X. Yi, J. Chen, L. Hong, and E. H. Chi,“Modeling task relationships in multi-task learning with multi-gate mixture-of-experts,”in Proceedings of the 24th ACM SIGKDD international conference on * knowledge discovery & data mining (SIGKDD), 2018, pp. 1930–1939.
[4] H. Tang, J. Liu, M. Zhao, and X. Gong,“Progressive layered extraction (ple): A novel multi-task learning (mtl) model for personalized recommendations,”in Proceedings of the 14th ACM Conference on Recommender Systems (RecSys), 2020, pp. 269–278.
[5] L. Torrey and J. Shavlik,“Transfer learning,”in Handbook of research on machine learning applications and trends: algorithms, methods, and techniques. IGI global, 2010, pp. 242–264.
[6] S. J. Pan and Q. Yang,“A survey on transfer learning,”IEEE Transactions on Knowledge and Data Engineering, vol. 22, no. 10, pp. 1345–1359, 2010.
[7] F. Zhu, Y. Wang, C. Chen, J. Zhou, L. Li, and G. Liu,“Cross-domain recommendation: challenges, progress, and prospects,”in 30th International Joint Conference on Artificial Intelligence (IJCAI). International Joint * Conferences on Artificial Intelligence, 2021, pp. 4721–4728.
[8] Y. Zhang and Q. Yang,“A survey on multi-task learning,”IEEE Transactions on Knowledge and Data Engineering, 2021.
[9] S. Ruder,“An overview of multi-task learning in deep neural networks,”arXiv preprint arXiv:1706.05098, 2017.
[10] O. Sener and V. Koltun,“Multi-task learning as multi-objective optimization,”in Thirty-second Conference on Neural Information Processing Systems (NeurIPS), 2018.
[11] C. Rosenbaum, T. Klinger, and M. Riemer,“Routing networks: Adaptive selection of non-linear functions for multi-task learning,”in International Conference on Learning Representations (ICLR), 2018.
[12] J. Wang, S. C. Hoi, P. Zhao, and Z.-Y. Liu,“Online multi-task collaborative filtering for on-the-fly recommender systems,”in Proceedings of the 7th ACM conference on Recommender systems (RecSys), 2013, pp. 237–244.
[13] R. Caruana,“Multitask learning,”Machine learning, vol. 28, no. 1, pp. 41–75, 1997.
[14] K. Weiss, T. M. Khoshgoftaar, and D. Wang,“A survey of transfer learning,”Journal of Big data, vol. 3, no. 1, pp. 1–40, 2016.
[15] N. Shazeer, A. Mirhoseini, K. Maziarz, A. Davis, Q. Le, G. Hinton, and J. Dean,“Outrageously large neural networks: The sparsely-gated mixture-of-experts layer,”arXiv preprint arXiv:1701.06538, 2017.
[16] D. Eigen, M. Ranzato, and I. Sutskever,“Learning factored representations in a deep mixture of experts,”Computer Science, 2013.
[17] M. I. Jordan and R. A. Jacobs,“Hierarchical mixtures of experts and the em algorithm,”Neural computation, vol. 6, no. 2, pp. 181–214, 1994.
[18] R. A. Jacobs, M. I. Jordan, S. J. Nowlan, and G. E. Hinton,“Adaptive mixtures of local experts,”Neural computation, vol. 3, no. 1, pp. 79–87, 1991.
[19] S. E. Yuksel, J. N. Wilson, and P. D. Gader,“Twenty years of mixture of experts,”IEEE transactions on neural networks and learning systems, vol. 23, no. 8, pp. 1177–1193, 2012.
[20] Y. Zhang, C. Li, I. W. Tsang, H. Xu, L. Duan, H. Yin, W. Li, and J. Shao,“Diverse preference augmentation with multiple domains for cold-start recommendations,”in IEEE International Conference on Data Engineering (ICDE), 2022.

| 本文系美团技术团队出品，著作权归属美团。欢送出于分享和交换等非商业目标转载或应用本文内容，敬请注明“内容转载自美团技术团队”。本文未经许可，不得进行商业性转载或者应用。任何商用行为，请发送邮件至 tech@meituan.com 申请受权。

| 在美团公众号菜单栏对话框回复【2022 年货】、【2021 年货】、【2020 年货】、【2019 年货】、【2018 年货】、【2017 年货】等关键词，可查看美团技术团队历年技术文章合集。

关于美团:多场景多任务学习在美团到店餐饮推荐的实践

1. 背景

2. 层次化信息抽取网络

2.1 问题定义

2.2 办法介绍

2.2.1 场景抽取层（Scenario Extraction Layer）

2.2.2 工作抽取层（Task Extraction Layer）

2.3 训练指标

3. 试验

3.1 试验设置

3.2 性能比拟

3.3 融化钻研

3.4 在线 A / B 测试

4. 总结与瞻望

作者简介

参考文献

Just My Socks（注册教程内含优惠码）

关于美团:多场景多任务学习在美团到店餐饮推荐的实践

1. 背景

2. 层次化信息抽取网络

2.1 问题定义

2.2 办法介绍

2.2.1 场景抽取层（Scenario Extraction Layer）

2.2.2 工作抽取层（Task Extraction Layer）

2.3 训练指标

3. 试验

3.1 试验设置

3.2 性能比拟

3.3 融化钻研

3.4 在线 A / B 测试

4. 总结与瞻望

作者简介

参考文献

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）