关于机器学习:KDD-Cup-2020多模态召回比赛季军方案与搜索业务应用

美团到店广告平台搜寻广告算法团队基于本身的业务场景，始终在一直进行前沿技术的深刻优化与算法翻新，团队在图学习、数据偏差、多模态学习三个前沿畛域均有肯定的算法钻研与利用，并获得了不错的业务后果。

基于这三个畛域的技术积攒，团队在 KDD Cup 2020 较量中抉择了三道紧密联系的赛题，心愿利用并晋升这三个畛域技术积攒，带来技术与业务的进一步冲破。团队的黄刚强、胡可、漆毅、曲檀、陈明健、郑博航、雷军与中科院大学唐兴元独特组建参赛队伍 Aister，加入了 AutoGraph、Debiasing、Multimodalities Recall 三道赛题，最终在 AutoGraph 赛道中取得了冠军（1/149）(解决方案可见：KDD Cup 2020 Debiasing 较量冠军技术计划与广告业务利用），在 Debiasing 赛道中取得冠军（1/1895）（解决方案可见：KDD Cup 2020 Debiasing 较量冠军技术计划与广告业务利用），并在 Multimodalities Recall 赛道中取得了季军（3/1433）。

要解决自然界、生存中多种模态纠缠、互补着的信息，多模态学习是必由之路。随着互联网交互状态的一直演进，多模态内容如图文、视频等越发丰盛；在美团的搜寻广告零碎中，也体现出同样的趋势。搜寻广告算法团队利用多模态学习相干技术，已在业务上获得了不错的成果，并在往年 KDD Cup 的 Multimodalities Recall 赛道取得了第三名。

本文将介绍 Multimodailites Recall 赛题的技术计划，以及团队在广告业务中多模态学习相干技术的利用与钻研，心愿对从事相干钻研的同学可能有所帮忙或者启发。

多模态召回赛题由阿里巴巴达摩院智能计算实验室发动并组织，关注电商行业中的多模信息学习问题。2019 年，全世界线上电商营收额曾经达到 3530 亿美元。据相干预测，到 2022 年，总营收将增长至 6540 亿美元。大规模的营收和高速增长同时预示着，消费者对于电商服务有着微小的需要。追随这一增长，电商行业中各种模态的信息越来越丰盛，如直播、博客等等。怎么在传统的搜索引擎和举荐零碎中引入这些多模信息，更好地服务消费者，值得相干从业者深入探讨。

本赛道提供了淘宝商城的实在数据，包含两局部，一是搜寻短句（Query）相干，为原始数据；二是商品图片相干，思考到知识产权等，提供的是应用 Faster RCNN 在图片上提取出的特征向量。两局部数据被组织为基于 Query 的图片召回问题，即无关文本模态和图片模态的召回问题。

为不便了解，本赛道提供了大量实在图片及其对应的原始数据，上面是一个例子。该图例是一个正样例，其 Query 为 Sweet French Dress，图片主体局部是一名身着甘甜裙装的女性，主体局部以外，则有大量芜杂信息，包含一个手提包、一些气球以及一些商标和促销文字信息。赛题自身不提供原始图片，而提供的是 Faster RCNN 在图片上提取出的特征向量，即图片中被框出的几个局部。可见，一方面 Faster RCNN 提取了图片中有显著语义的内容，有助于模型学习；另一方面，Faster RCNN 的提取会蕴含较多的框，这些框体现不出语义的主次之分。怎么利用这些框和文本相匹配，是该赛题的核心内容。

本次赛题设置的评估指标为 NDCG@5。具体来说，在给定的测试集里，每条 Query 会给出约 30 个样本，其中大概 6 条为正样本，其余为负样本。赛题须要选手设计匹配算法，召回出任意 5 条正样本，即可取得该 Query 的全副分数，否则，依照召回的正样本条数来计算 NDCG 指标作为该 Query 的分数。全副 Query 的分数进行均匀，即为最终得分。

本赛道提供了三份数据集，别离称为训练集、验证集和测试集。各个数据集的根本信息如下：

为进一步摸索数据特点，咱们将验证集给出的原始图片和特色信息做了聚合展示，下表是一组示例。

依据如上摸索，咱们总结了数据集的三个重要特点：

训练集和验证集 / 测试集的数据特点大不相同。训练集量级显著高于验证集 / 测试集，足有三百万条 Query-Image 对，是验证集 / 测试集的一百倍以上。同时，训练集的每条 Query-Image 对均被视为正样本，这和验证集给出的一条 Query 下挂多个有正有负的 Image 截然不同。而通过对验证集原始图片和 Query 进行可视化摸索，可见验证集数据品质很高，应该为人工标注。思考人工标注老本和负样本的缺失，训练集有极大可能形容的是点击关系，而非人工标注的语义匹配关系。咱们的解决方案中必须要思考到训练集散布和测试集散布并不匹配这一根本特点。
图片信息简单，经常蕴含多个物体。这些物体均被框出，作为给定特色，但各个框之间语义信息并不平等；某些是乐音，如 Query(men’s high collar sweater) 下的墨镜、围巾、相机等框图，某些又是因商品展现须要而反复，如 Query(breathable and comfortable children’s shoes) 下的反复鞋的框图。均匀来说，一张图片有 4 个框，怎么将这多个框蕴含的语义信息去噪、综合，失去图片的整体语义表白，是建模的一个重点。
Query 作为给定的原始文本，有着与常用语料截然不同的结构和散布状况。从示例表可见，Query 并非天然语句，而是一些属性和商品实体连缀成的短语。通过统计发现，90% 的 Query 都由 3 - 4 个单词组成；训练集有约 150 万的不同 Query，其词表大小在 15000 左右；通过最初一个单词，可将全副 Query 归约为大概 2000 类，每一类都是一个具体的商品名词。咱们须要思考文本数据的这些特质，进行针对性解决。

本比赛是在电商的搜寻数据上的一个多模信息匹配工作。从上述数据集的三个特点登程，咱们总结了该比赛的两大次要挑战。

第一， 散布不统一问题 。经典统计机器学习的根底假如是训练集和测试集散布统一，不统一的散布通常会导致模型学偏，训练集和验证集成果难以对齐。咱们必须依赖于已有的大规模训练集中的点击信号和小规模的和测试集同散布的验证集，设计可行的数据构建办法和模型训练流程，采取诸如迁徙学习等技术，以解决这一问题。

第二， 简单多模信息匹配问题 。怎么进行多模信息交融是多模态学习中的基础性问题，而怎么对简单的多模信息进行语义匹配，是本比赛特有的挑战。从数据看，一方面商品图片多框，信息含量大、噪点多；另一方面，用户搜寻 Query 个别具备多个细粒度属性词，且各个词均在语义匹配中发挥作用。这就要求咱们在模型设计上针对性解决图和 Query 两方面的复杂性，并做好细粒度的匹配。

针对这两大挑战，上面将详述搜寻广告团队的解决方案。

咱们的计划间接回应了上述两个挑战，其主体局部蕴含两方面的内容，一是通过联结多样化的负采样策略和蒸馏学习以桥接训练数据和测试集的散布，解决散布不统一问题；二是采取细粒度的文本 - 图片匹配网络，进行多模信息交融，解决简单多模信息匹配问题。最初，通过两阶段训练和多模交融，咱们进一步晋升了模型体现，整个计划的流程如下图所示。上面详述计划的各个局部。

训练集和测试集散布不统一。最直观的不统一是，训练集中只有正样本，没有负样本。咱们须要设计负采样策略来结构负样本，并尽可能使得采样出的负样本凑近测试集实在散布。最直观的想法是随机采样。随机采样简单易行，但和验证集区别较大。剖析验证集发现，对同一 Query 下的候选图片，通常有着严密的语义关联。如“甘甜法式长裙”这一 Query 下，待选的图片全是裙装，只是在样式上有不同。这阐明，这一多模匹配赛题须要在较细的属性粒度上对文本和图片进行匹配。从图片标签和 Query 词两个角度登程，咱们能够通过相应的聚类算法，使得待采样的空间从全局细化为类似语义条目，从而达到负采样更贴近测试集散布的目标。

基于如上剖析，咱们设计了如下表所示的四种采样策略来构建样本集。这四种策略中，随机采样失去的正负样本最容易被辨别，按 Query 最初一词采样失去的正负样本最难被辨别；在训练中，咱们从基准模型登程，先在最简略的随机采样上训练基准模型，而后在更艰难的按图片标签采样、按 Query 的聚类采样的样本集上基于先前的模型持续训练，最初在最难的按 Query 最初一词采样的样本集上训练。这样由易到难、由远到近的训练形式，有助于模型收敛到验证集散布上，在测试集上获得了更好的成果。

只管应用多种采样策略，可从不同角度去迫近测试集的实在散布，但因为未间接利用测试集信息领导负采样，这些采样策略仍有有余。因此，咱们采纳蒸馏学习的方法，来进一步优化负采样逻辑，以求拿到更贴近测试集的样本集散布。如下图所示，在通过训练集负采样失去的样本集上预训练当前（第 1 步），咱们将该模型在验证集上进一步 Finetune，失去微调模型（第 2 步）。利用微调模型，咱们反过来在训练集上打伪标签，作为 Soft Label，并把 Soft Label 引入 Loss，跟原始的 0 -1 Hard Label 联结学习（第 3 步）。这样，训练集的训练上，即间接引入了验证集的散布信息，进一步贴近了验证集散布，晋升了预训练模型的体现。

多模态学习方兴未艾，各类工作、模型层出不穷。针对咱们面临的简单图片和搜寻 Query 匹配的问题，参照 CVPR 2017 的 VQA 比赛的冠军计划，咱们设计了如下的神经网络模型作为主模型。

该模型的设计次要思考了如下三点：

利用带门全连贯网络做语义映射。图片和 Query 处于不同语义层级，需利用函数映射到雷同的语义空间，咱们采取了两个全连贯层的形式达到该目标。试验发现，全连贯层的隐层大小是比拟敏感的参数，适当增大隐层，可在不过分减少计算复杂度的状况下，显著晋升模型成果。此外，如文献所述，应用带门的全连贯层可进一步晋升语义映射网络的成果。
采纳双向 Attention 机制。图片和 Query 均由更细粒度的子语义单元组成。具体来说，一张图片上可能有多个框，每个框均有独立的语义信息；一个 Query 分为多个词，每个词也蕴含独立的语义信息。这一数据特点是由电商搜寻场景决定的。因此，在模型设计时，需思考到单个子语义单元之间的匹配。咱们采纳单个词和全副框、单个框和全副词单方向的注意力机制，去捕获这些子单元的匹配关系和重要水平。
应用多样化多模交融策略。多模信息交融有很多伎俩，大部分最终归结为图片向量和 Query 向量之间的数学操作符。思考到不同交融形式各有特点，多样交融可能更全面地刻画匹配关系，咱们采纳了 Kronecker Product、Vector Concatenation 和 Self-Attention 三种交融形式，将通过语义空间转化和 Attention 机制映射后的图片向量和 Query 向量进行信息交融，并最终送入全连贯神经网络，失去匹配与否的概率值。

此外，咱们采纳在训练集样本上预训练词向量的形式失去原始 Query 的示意，而非应用 BERT 模型等风行的预训练模型。这里的次要思考是，数据分析指出，Query 和常见的天然语句很不同，而更像是一组特定属性 / 品类名词组合在一起的短语，这和 BERT 等预训练模型所应用的语料有显著差别。事实上，咱们初步尝试引入 Glove 预训练词向量等，和间接在 Query 文本上预训练相比，并无显著收益。再思考到 BERT 模型比拟轻便，不利于疾速迭代，咱们最终没有应用相干的语言模型技术。

在上述技术手段的解决下，咱们失去了多个根底模型。这些模型均可在验证集上进行 Finetune，从而使其成果更贴近实在散布。一方面，Finetune 阶段可持续应用前述的神经网络匹配模型。另一方面，前述神经网络可作为特征提取器，将其在规模较小的验证集上的输入，放入树模型从新训练。这一益处是树模型和神经网络模型异质性大，交融成果更好。最终，咱们提交的后果是多个神经网络模型和树模型交融的后果。

咱们以随机采样训练的粗粒度（图片示意为所有框的均匀，Query 示意为所有词的均匀）匹配网络为基准模型。下表列出了咱们解决方案的各个局部在基准模型上的晋升成果。

搜寻广告算法团队负责美团与点评双平台的搜寻广告与筛选列表广告业务，业务类型波及餐饮、休闲娱乐、丽人、酒店等，丰盛的业务类型为算法优化带来很大空间与挑战。搜寻广告中的创意优选阶段，目标在通过以后搜索词或者筛选用意，为用户的每一个广告展现后果抉择高质量的图片。用户的搜索词与图片在维度，表白粒度均有较大差别，咱们采纳多模态学习来解决这一问题，将跨模表白进行同空间映射。如下图所示，在多模态网络中，将广告特色、申请特色、用户偏好连同图片特色作为输出，其中图片特色通过 CNN 网络提取图片向量示意，其余特色通过多层 MLP 进行穿插失去浓密向量示意，最终通过图片 Loss 和多模 Loss 两个损失函数束缚模型训练。通过这样的建模形式，创意优选模型能够依据查问为不同用户的广告后果出现最合适的图像。

搜寻广告零碎分为广告触发、创意优选，点击率预估（广告粒度）等模块。其中，创意优选阶段对于每个广告后果有超过十张的图片候选，线上服务的计算量是点击率预估（广告粒度）的十倍以上，对性能有更高的要求。而为了缩短耗时而缩小模型复杂度又必然导致模型精度的的降落。

为了均衡模型的性能和成果，咱们借鉴了常识蒸馏的思路来解决这一难题，借用了高表达能力的广告粒度预估模型。如上图 7 所示，左侧模型为简单的广告粒度点击率预估模型，能够作为老师网络；右侧为简略的创意粒度优选模型，作为学生网络。学生网络的指标损失函数中，除学生网络本身输入 Logit 的 Logloss 以外，还退出了其 Logit 和老师网络输入 Logit 之间的平方误差。这一辅助 Loss 可能迫使学生模型的输入和老师模型的输入更靠近。因而，学生模型能够学得与老师模型更靠近，从而达到放弃绝对简单网络规模的同时、晋升精度的目标。

除此以外，底层共享 Embedding 的设计，也使得学生模型的底层参数可失去老师模型的训练。并且，在晋升精度的同时，多模块之间的一致性（例如 CTR 预估与创意优选）也是零碎精度进步的一个要害，在指标与表白学习的 Teacher-Student 联结训练有利于多阶段的指标对立。基于精度晋升与多阶段指标的一致性，咱们获得线上业务成果较为显著的晋升。

KDD Cup 是同工业界联接十分严密的较量，每年赛题紧扣业界热点问题与理论问题，其中历年产出的 Winning Solution 对工业界有很大影响。例如，KDD Cup 2012 产出了 FFM (Feild-Aware Factorization Machine) 与 XGBoost 的原型，在工业界获得广泛应用。往年的 KDD Cup 次要关注在自动化图示意学习以及举荐零碎等畛域上。自然界的信息经常是多种模态混合的，对多模信息的解决和解决是近年来的一大钻研热点。同时在工业界的搜索引擎或举荐零碎中，波及到的多模信息处理等，正变得越来越重要。特地是随着直播、短视频等业务状态的衰亡，多模态学习已变得不可或缺。

本文次要介绍了 KDD CUP 2020 的多模态比赛状况以及美团搜寻广告算法团队的解决方案。对数据进行充沛摸索后，咱们剖析出比赛数据的三大特点，同时定位了赛题有两大挑战，即训练集和测试集散布不统一和简单多模信息匹配。咱们通过多样化负采样策略、蒸馏学习和预训练与 Finetune 等技术解决了散布不统一问题，并通过细粒度匹配网络解决简单多模信息匹配问题，两方面思路均获得了成果的显著晋升。同时，本文还介绍了多模态学习相干技术在搜寻广告业务中的理论利用状况，包含创意优选模型中的图片和用户偏好联结学习、蒸馏学习在创意模型中的利用等。通过较量高强度、快频率的迭代，团队在多模态学习方面有了更深的了解。在将来的工作中咱们会基于本次较量获得的教训，深刻更多的多模态业务场景中进行剖析和建模，施展数据的价值。

[1] Teney, Damien, et al. “Tips and tricks for visual question answering: Learnings from the 2017 challenge.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.
[2] Hinton, Geoffrey, Oriol Vinyals, and Jeff Dean. “Distilling the knowledge in a neural network.” arXiv preprint arXiv:1503.02531 (2015).
[3] Pennington, Jeffrey, Richard Socher, and Christopher D. Manning. “Glove: Global vectors for word representation.” Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). 2014.
[4] Devlin, Jacob, et al. “Bert: Pre-training of deep bidirectional transformers for language understanding.” arXiv preprint arXiv:1810.04805 (2018).
[5] Zhou, Bolei, et al. “Simple baseline for visual question answering.” arXiv preprint arXiv:1512.02167 (2015).
[6] Yu, Zhou, et al. “Deep modular co-attention networks for visual question answering.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2019.

漆毅，刚强，胡可，雷军等，均来自美团广告平台搜寻广告算法团队。

美团 AI 以“帮人们吃得更好，生存更好”为外围指标，致力于在理论业务场景需要上摸索前沿的人工智能技术，并将之迅速落地在理论生存服务场景中，实现线下经济的数字化。

美团 AI 诞生于美团丰盛的生存服务场景需要之上，具备场景驱动技术的独特性与劣势。以业务场景与丰盛数据为根底，通过图像识别、语音交互、自然语言解决、配送调度技术，落地于无人配送、无人微仓、智慧门店等实在场景下，笼罩人们生存的方方面面，用科技助力用户生存品质晋升，产业智能化降级乃至整个社会的生存服务新基建建设。

更多信息请拜访：https://ai.meituan.com/

美团广告平台搜寻广告算法团队立足搜寻广告场景，摸索深度学习、强化学习、人工智能、大数据、常识图谱、NLP 和计算机视觉最前沿的技术倒退，摸索本地生存服务电商的价值。次要工作方向包含：

触发策略 ：用户用意辨认、广告商家数据了解，Query 改写，深度匹配，相关性建模。
品质预估 ：广告品质度建模。点击率、转化率、客单价、交易额预估。
机制设计 ：广告排序机制、竞价机制、出价倡议、流量预估、估算调配。
创意优化 ：智能创意设计。广告图片、文字、团单、优惠信息等展现创意的优化。

岗位要求：

有三年以上相干工作教训，对 CTR/CVR 预估，NLP，图像了解，机制设计至多一方面有利用教训。
相熟罕用的机器学习、深度学习、强化学习模型。
具备优良的逻辑思维能力，对解决挑战性问题充满热情，对数据敏感，长于剖析 / 解决问题。
计算机、数学相干业余硕士及以上学历。

具备以下条件优先：

有广告 / 搜寻 / 举荐等相干业务教训。
有大规模机器学习相干教训。

感兴趣的同学可投递简历至：tech@meituan.com（邮件题目请注明：广平搜寻团队）。

浏览更多技术文章，请扫码关注微信公众号 - 美团技术团队！

背景

赛题介绍与剖析

题目概述

数据分析和了解

问题挑战

比赛计划

多样负采样策略和预训练

蒸馏学习

细粒度匹配网络

多模交融

评估后果

广告业务利用

总结与瞻望

参考文献

作者简介

对于美团 AI

招聘信息