CIKM 是信息检索、常识治理和数据库畛域中顶级的国内学术会议,自 1992 年以来,CIKM 胜利汇聚上述三个畛域的一流钻研人员和开发人员,为交换无关信息与常识治理钻研、数据和知识库的最新倒退提供了一个国内论坛。大会的目标在于明确将来常识与信息系统倒退将面临的挑战和问题,并通过征集和评估应用性和理论性强的顶尖研究成果以确定将来的钻研方向。
往年的 CIKM 大会原打算 10 月份在爱尔兰的 Galway 举办,因为疫情起因改为在线举办。美团 AI 平台 / 搜寻与 NLP 部 /NLP 核心 / 常识图谱组共有六篇论文(其中 4 篇长文,2 篇短文)被国内会议 CIKM 2020 接管。
这些论文是美团常识图谱组与西安交通大学、中国科学院大学、电子科技大学、中国人民大学、西安电子科技大学、南洋理工大学等高校院所的科研单干成绩,是在多模态常识图谱、MT-BERT、Graph Embedding 和图谱可解释性等方向上的技术积淀和利用。心愿这些论文能帮忙到更多的同学学习成长。
01《Query-aware Tip Generation for Vertical Search》
| 本论文系美团常识图谱组与西安交通大学郝俊美同学、中国科学院大学李灿佳同学、西安电子科技大学汪自力同学的单干论文。
论文下载
可解释性理由(又称举荐理由)是在搜寻后果页和发现页(场景决策、必吃榜单等)展现给用户进行亮点举荐的一句自然语言文本,能够看作是实在用户评论的高度稀释,为用户解释召回后果,开掘商户特色,吸引用户点击,并对用户进行场景化疏导,辅助用户决策从而优化垂直搜寻场景中的用户体验。
现有的文本生成工作大部分并未思考用户的用意信息,这限度了生成式举荐理由在场景化搜寻中的落地。本文提出一种 Query 感知的举荐理由生成框架,将用户 Query 信息别离嵌入到生成模型的编码和解码过程中,依据用户 Query 不同会主动生成适配不同场景的个性化举荐理由。本文别离对 Transformer 和递归神经网络(RNN)两种支流模型构造进行了革新。基于 Transformer 构造,本文通过改良 Self-Attention 机制来引入 Query 信息,包含在 Encoder 引入 Query-aware Review Encoder 使得在评论编码最后阶段就开始思考 Query 相干的信息,在 Decoder 端引入 Query-aware Tip Decoder 使得在评论编码最初阶段思考 Query 相干的信息。基于 RNN 构造,在 Encoder 端通过 Selective Gate 形式过滤掉 Query 无关信息,抉择原始评论中跟 Query 相干的信息进行编码,并在解码器端将 Query 示意向量退出 Attention 机制的 Context 向量计算,领导解码的过程,肯定水平上解决了生成办法解码不可控的问题,从而生成 Query 个性化的举荐理由。
在公开数据集和美团业务数据集上别离进行试验,该论文提出的办法优于现有办法。该论文提出的算法已利用上线,目前在美团的搜寻、举荐、类目筛选和榜单等多场景落地。
02《TABLE: A Task-Adaptive BERT-based ListwisE Ranking Model for Document Retrieval》
| 本论文系美团常识图谱组与中国科学院软件研究所唐弘胤同学、金蓓弘老师的单干论文。
论文下载
近年来,为了进步模型的自然语言理解能力,越来越多的 MRC 和 QA 数据集开始涌现。然而,这些数据集或多或少存在一些缺点,比方数据量不够、依赖人工结构 Query 等。针对这些问题,微软提出了一个基于大规模实在场景数据的浏览了解数据集 MS MARCO(Microsoft Machine Reading Comprehension)。该数据集基于 Bing 搜索引擎和 Cortana 智能助手中的实在搜寻查问产生,蕴含 100 万查问、800 万文档和 18 万人工编辑的答案。
基于 MS MARCO 数据集,微软提出了两种不同的工作:一种是给定问题,检索所有数据集中的文档并进行排序,属于文档检索和排序工作;另一种是依据问题和给定的相干文档生成答案,属于 QA 工作。在美团业务中,文档检索和排序算法在搜寻、广告、举荐等场景中都有着宽泛的利用。此外,间接在所有候选文档上进行 QA 工作的工夫耗费是无奈承受的,QA 工作必须依附排序工作筛选出排名靠前的文档,而排序算法的性能间接影响到 QA 工作的体现。基于上述起因,咱们次要将精力放在基于 MS MARCO 的文档检索和排序工作上。
自 2018 年 10 月 MACRO 文档排序工作公布后,迄今吸引了包含阿里巴巴达摩院、Facebook、微软、卡内基梅隆大学、清华等多家企业和高校的参加。在美团的预训练 MT-BERT 平台上,咱们提出了一种针对该文本检索工作的 BERT 算法计划,称之为 TABLE。值得注意的是,该论文提出的 TABLE 模型在信息检索畛域的权威评测微软 MARCO 排行榜上首个超过 0.4% 的模型。
如上图所示,该论文提出了一种基于 BERT 的文档检索模型 TABLE。在 TABLE 的预训练阶段,应用了一种畛域自适应策略。在微调阶段,该论文提出了两阶段的工作自适应训练过程,即查问类型自适应的 Pointwise 微调以及 List 微调。试验证实这种工作自适应过程使模型更具鲁棒性。这项工作能够摸索查问和文档之间更丰盛的匹配个性。因而,该论文显著晋升了 BERT 在文档检索工作中的成果。随后在 TABLE 的根底上咱们又提出了两个解决 OOV(Out of Vocabulary)谬误匹配的办法:精准匹配办法和词还原机制,进一步晋升了模型的成果,咱们把这个改良后的模型称为 DR-BERT。DR-BERT 的细节详见咱们的技术博客:《MT-BERT 在文本检索工作中的实际》。
03《Multi-Modal Knowledge Graphs for Recommender Systems》
| 本论文系美团常识图谱组与中国科学院软件研究所唐弘胤同学、金蓓红老师的单干论文。
论文下载
随着常识图谱技术倒退,其结构化数据被胜利的利用在了一系列上游利用当中。在举荐零碎方向中,结构化的图谱数据能够利用指标商品更加全面的辅助信息,通过图谱关联进行信息流传,从而无效地对指标商品进行表征建模,缓解举荐零碎中用户行为稠密及冷启动等问题。近年来,曾经有不少钻研工作利用图谱门路特色、基于图嵌入的表征学习等形式,胜利的将图谱数据和举荐零碎进行联合,使得举荐零碎准确率失去晋升。
在已有的图谱和举荐零碎联合的工作当中,人们往往仅关注于图谱节点和节点关系,而没有利用多模态常识图谱中的各个模态的数据进行建模。多模态数据包含图像模态如电影的剧照,文本模态如商户的评论等。这些多模态数据同样能够通过常识图谱图关系进行流传和泛化,并为上游的举荐零碎带来高价值的信息。然而,因为多模态常识建模往往是不同模态的辅助信息关系,而非传统图谱中三元组所代表的语义关联关系,故传统的图谱建模形式并不能很好地对多模态常识图谱进行建模。
因而,本文针对多模态常识图谱的特点提出了 MKGAT 模型,首次提出利用多模态常识图谱的结构化信息晋升上游举荐零碎的预测准确度。MKGAT 的整体模型框架如下图所示:
在 MKGAT 模型中,多模态图谱的嵌入示意学习次要分为三个次要局部:1)咱们首先利用多模态实体编码模块(MKG Entity Encoder),将不同类型的输出数据(图像、文本、标签等)编码为高阶隐向量;2)接下来,咱们基于多模态图注意力机制模块(MKG Attention Layer),利用实体节点四周的节点(包含多模态及实体节点)来为该节点的刻画提供相应的信息;3)在利用注意力机制综合了多模态信息之后,再利用传统 h +r= t 的训练方法进行图谱嵌入示意学习。
在接入上游举荐零碎模型时,咱们同样是复用了多模态实体编码和多模态图注意力机制模块对指标实体进行表征,接入举荐零碎模型当中。通过上述办法,咱们在美团的美食搜寻场景和公开数据集 MovieLens 这两个实在数据集上进行了详尽的试验,结果表明在这两个场景中 MKGAT 显著地进步了举荐零碎的品质。
04《S^3-Rec: Self-Supervised Learning for Sequential Recommendation with Mutual Information Maximization》
| 本论文系美团常识图谱组与中国人民大学周昆同学、王辉同学、朱余韬同学、赵鑫老师、文继荣老师的单干论文。
论文下载
序列举荐是指利用用户长期的交互历史序列,预测用户将来交互的商品,其通过建模序列信息来加强给用户举荐的准确度。现有的序列举荐模型利用商品预测这一工作来进行模型的参数训练,然而也受限于惟一的训练任务,该类模型很容易受数据稠密问题影响;它尽管优化的是最终的举荐指标,然而并没有充沛地建模上下文数据中的潜在关系,更没有利用该局部信息帮忙序列举荐模型。
为解决以上问题,本文提出了一个新模型 S^3-Rec,它基于自注意力网络结构,采纳自监督学习策略进行示意学习,进而优化序列化举荐工作。该模型基于四种非凡的自监督工作,这些工作别离对属性、商品、自序列和原始序列之间的潜在关系进行学习。因为以上四种信息示意输出数据的四种不同信息粒度视角,本文采纳互信息最大化策略来建模这四种信息的潜在关系,进而强化该类数据的示意。本文在包含美团场景的六个实在数据集上进行了大量的试验,以证实该论文提出办法比现有的序列举荐先进办法的优越性,其中在无限的训练数据场景下该模型仍旧能放弃较好的体现。
05《Leveraging Historical Interaction Data for Improving Conversational Recommender System》
| 本论文系美团常识图谱组与中国人民大学周昆同学、王辉同学、赵鑫老师、文继荣老师的单干论文。
论文下载
近年来,会话举荐零碎曾经成为了一项重要的钻研方向,它在现实生活中也有很多的利用。一个会话举荐零碎须要可能通过与用户的对话来理解用户的用意,进而给出适合的举荐,因而它蕴含一个会话模块和举荐模块。现有的会话举荐零碎往往基于学习好的用户示意来实现举荐,这须要对对话内容进行编码。然而实际上仅仅应用对话数据难以精确地预测用户的偏好信息,本论文冀望可能通过利用用户的历史交互序列,帮忙实现举荐。
基于该构想,会话举荐零碎须要同时思考用户的历史交互序列和会话数据,本论文提出了一种新的预训练方法,通过预训练方法将基于商户的偏好序列(来自历史交互数据)和基于商户属性的偏好序列(来自对话数据)联合起来,晋升了会话举荐零碎的成果。为了进一步提高性能,该论文还设计了一种负样本生成器,以产生高质量的负样本来帮忙训练。该论文在两个实在数据集上进行了试验,并证实了该办法对改良会话举荐零碎是无效的。
06《Structural relationship representation learning with graph embedding for personalized product search》
| 本论文系美团常识图谱组与南洋理工大学刘尚同学、丛高老师的单干论文。
[论文下载](https://dl.acm.org/doi/abs/10…
)
个性化在商品搜寻中十分重要,用户的偏好在很大水平上影响着用户的购买决策。例如,当一个年老用户在电子商务平台上搜寻一件“宽松 T 恤”时,他更有可能购买他感兴趣、有品牌的时尚样式或衬衫。个性化商品搜寻(PPS)的目标是针对给定的查问生成用户特有的商品倡议,在很多电子商务平台中起着至关重要的作用。
在这项工作中,咱们利用从用户 - 查问 - 商品中学习的逻辑构造示意,天然地保留用户 / 查问 / 商品之间的合作信号和交互信息在逻辑门路上,以改良个性化的商品搜寻。咱们把这些逻辑构造称为“Conjunctive Graph Pattern”。例如,如图 1 所示,有三个要害模式。留神,当分支有三个或更多分支时,咱们能够随机抽样其中的两个分支,失去以下模式:
具体来说,咱们提出一个新办法:基于逻辑构造示意学习的图嵌入模型(GraphLSR)。GraphLSR 的概念劣势在于,它是一个基于嵌入的框架,能够无效地学习逻辑构造的示意,以及用户(查问或商品)在几何操作中的近似关系,并将其整合到个性化的商品搜寻中。它背地的要害思维是,咱们学习了如何将三种类型的连贯图模式嵌入到低维空间中,通过嵌入图来加强个性化商品搜寻,框架如图 2 所示,它由两个次要组件组成:图嵌入模块和个性化搜寻模块。图 2 下方的图嵌入模块利用设计的三种连贯图模式学习嵌入节点进行逻辑示意学习,也便于学习用户(查问或商品)之间的类似度。而后将示意信息引入个性化搜寻模块。
个性化搜寻模块以用户、查问、商品以及从图嵌入中学习的示意作为输出,应用多层感知器(MLP)集成相应的信息。将提取进去的用户、查问和商品的短特色和密集特色别离输出到 MLP 网络中,学习用户特有的查问代表和用户特有的商品示意,而后咱们将它们一起输出另一个 MLP 来计算预测的概率分数。
表 3 比拟了 GraphLSR 与四种个性化搜寻办法在个性化商品搜寻工作中的 MRR、NDCG@10 和 Hit@10 方面的性能:
总结
以上是搜寻与 NLP 部常识图谱组在多模态常识图谱、MT-BERT、Graph-Embedding、图谱可解释性上所做的一些钻研工作,论文成绩也是咱们在理论工作场景中遇到并解决的具体问题,大部分工作曾经在理论业务场景如内容搜寻、商品搜寻、举荐理由等我的项目上落地,并获得不错的业务收益。美团 AI 平台 / 搜寻与 NLP 核心始终致力于通过产研联合,一直将学术成绩转化为技术生产力,同时也欢送更多有志之士退出咱们团队。
| 想浏览更多技术文章,请关注美团技术团队(meituantech)官网微信公众号。在公众号菜单栏回复【2019 年货】、【2018 年货】、【2017 年货】、【算法】等关键词,可查看美团技术团队历年技术文章合集。