共计 4856 个字符,预计需要花费 13 分钟才能阅读完成。
简介:随着人工智能技术的一直倒退,常识图谱作为人工智能畛域的常识支柱,以其弱小的常识示意和推理能力受到学术界和产业界的宽泛关注。近年来,常识图谱在语义搜寻、问答、常识治理等畛域失去了宽泛的利用。
作者 | 朱渝珊
起源 | 阿里技术公众号
一 背景
1 多模态常识图谱
随着人工智能技术的一直倒退,常识图谱作为人工智能畛域的常识支柱,以其弱小的常识示意和推理能力受到学术界和产业界的宽泛关注。近年来,常识图谱在语义搜寻、问答、常识治理等畛域失去了宽泛的利用。多模态常识图谱与传统常识图谱的次要区别是,传统常识图谱次要集中钻研文本和数据库的实体和关系,而多模态常识图谱则在传统常识图谱的根底上,构建了多种模态(例如视觉模态)下的实体,以及多种模态实体间的多模态语义关系。以后典型的多模态常识图谱有 DBpedia、Wikidata、IMGpedia 和 MMKG。
多模态常识图谱的利用场景非常宽泛,它极大地帮忙了现有自然语言解决和计算机视觉等畛域的倒退。多模态构造数据尽管在底层表征上是异构的,然而雷同实体的不同模态数据在高层语义上是对立的,所以多种模态数据的交融对于在语义层级构建多种模态下对立的语言示意模型提出数据反对。其次多模态常识图谱技术能够服务于各种上游畛域,例如多模态实体链接技术能够交融多种模态下的雷同实体,可利用于新闻浏览,同款商品辨认等场景中,多模态常识图谱补全技术能够通过近程监督补全多模态常识图谱,欠缺现有的多模态常识图谱,多模态对话零碎可用于电商举荐,商品问答畛域。
2 多模态预训练
预训练技术在计算机视觉 (CV) 畛域如 VGG、Google Inception 和 ResNet,以及自然语言解决 (NLP) 如 BERT、XLNet 和 GPT- 3 的胜利利用,启发了越来越多的研究者将眼光投向多模态预训练。实质上,多模态预训练冀望学习到两种或多种模态间的关联关系。学术界的多模态预训练计划多基于 Transformer 模块,在利用上集中于图文工作,计划大多大同小异,次要差别在于采纳模型构造与训练任务的差别组合,多模态预训练的上游工作能够是惯例的分类辨认、视觉问答、视觉了解推断工作等等。VideoBERT 是多模态预训练的第一个作品,它基于 BERT 训练大量未标记的视频文本对。目前,针对图像和文本的多模态预训练模型次要能够分为单流模型和双流模型两种架构。VideoBERT,B2T2,VisualBERT,Unicoder-VL,VL-BERT 和 UNITER 应用了单流架构,即利用单个 Transformer 的 self-attention 机制同时建模图像和文本信息。另一方面,LXMERT、ViLBERT 和 FashionBERT 引入了双流架构,首先独立提取图像和文本的特色,而后应用更简单的 cross-attention 机制来实现它们的交互。为了进一步提高性能,VLP 利用了一个共享的多层 Transformer 进行编码和解码,用于图像字幕和 VQA。基于单流架构,InterBERT 将两个独立的 Transformer 流增加到单流模型的输入中,以捕捉模态独立性。
3 常识加强的预训练
近年来,越来越多的钻研人员开始关注常识图 (KG) 和预训练语言模型 (PLM) 的联合,以使 PLM 达到更好的性能。K-BERT 将三元组注入到句子中,以生成对立的常识丰盛的语言示意。ERNIE 将常识模块中的实体示意集成到语义模块中,将令牌和实体的异构信息示意到一个对立的特色空间中。KEPLER 将实体的文本形容编码为文本嵌入,并将形容嵌入视为实体嵌入。KnowBERT 应用一个集成的实体链接器,通过一种单词到实体的留神模式生成常识加强的实体广度示意。KAdapter 为 RoBERTa 注入了事实常识和语言常识,并为每种注入的常识提供了神经适配器。DKPLM 能够依据文本上下文动静地抉择和嵌入常识,同时感知全局和部分 KG 信息。JAKET 提出了一个联结预训练框架,其中包含为实体生成嵌入的常识模块,以便在图中生成上下文感知的嵌入。KALM、ProQA、LIBERT 等钻研还摸索了常识图与 PLM 在不同利用工作中的交融试验。然而,目前的常识加强的预训练模型仅针对繁多模态,尤其是文本模态,而将常识图融入多模态预训练的工作简直没有。
二 多模态商品常识图谱及问题
随着人工智能技术的一直倒退,常识图谱作为人工智能畛域的常识支柱,以其弱小的常识示意和推理能力受到学术界和产业界的宽泛关注。多模态常识图谱与传统常识图谱的次要区别是,传统常识图谱次要集中钻研文本和数据库的实体和关系,而多模态常识图谱则在传统常识图谱的根底上,构建了多种模态(例如视觉模态)下的实体,以及多种模态实体间的多模态语义关系。如图 1 所示,在电商畛域,多模态商品常识图谱通常有图像、题目和构造常识。
多模态商品常识图谱的利用场景非常宽泛,多模态构造数据尽管在底层表征上是异构的,然而雷同实体的不同模态数据在高层语义上是对立的,所以多种模态数据的交融有利于充沛表白商品信息。多模态商品常识图谱技术能够服务于各种上游畛域,例如多模态实体链接技术能够交融多种模态下的雷同实体,能够广泛应用于产品对齐,明星同款等场景中,多模态问答零碎对于电商举荐,商品问答畛域的提高有着重大的推动作用。但目前还相当不足无效的技术手段来无效交融这些多模态数据,以反对宽泛的电商上游利用。
图 1
最近几年,一些多模态预训练技术被提出(如 VLBERT、ViLBERT、LXMERT、InterBERT 等),这些办法次要用于开掘图像模态与文本模态信息之间的关联。然而,将这些多模态预训练方法间接利用到电子商务场景中会产生问题,一方面,这些模型不能建模多模态商品常识图谱的结构化信息,另一方面,在电商多模态常识图谱中,模态缺失和模态噪声是两个挑战(次要是文本和图片的缺失和噪声),这将重大升高多模态信息学习的性能。在实在的电子商务场景中,有的卖家没有将商品图片 (或题目) 上传到平台,有的卖家提供的商品图片 (或题目) 没有正确的主题或语义。图 2 中的 Item- 2 和 Item- 3 别离显示了阿里场景中的模态噪声和模态缺失的例子。
图 2
三 解决方案
为了解决这一问题,咱们将产品结构化常识作为一种独立于图像和文本的新的模态,称为常识模态,即对于产品数据的预训练,咱们思考了三种模态的信息: 图像模态 (产品图像)、文本模态(产品题目) 和常识模态(PKG)。如图 2 所示,PKG 蕴含 <h, r, t> 模式的三元组。例如,<Item-1,Material,Cotton> 示意产品 Item- 1 的材质是棉花。咱们这样解决的起因在于,(1)PKG 形容了产品的主观个性,它结构化且易于治理,通常为 PKG 做了很多保护和标准化工作,所以 PKG 绝对洁净可信。(2) PKG 与其余模态蕴含的信息有重合也有互补,以图 2 的 Item- 1 为例,从图片、题目和 PKG 都能够看出 Item- 1 是一件长袖 t 恤;另一方面,PKG 表明这款 t 恤不仅适宜秋季,也适宜秋季,但从图片和题目看不出来。因而,当存在模态噪声或模态缺失时,PKG 能够纠正或补充其余模态。
四 模型架构
咱们提出了一种在电子商务利用中新鲜的常识感知的多模态预训练方法 K3M。模型架构如图 3 所示,K3M 通过 3 个步骤学习产品的多模态信息:(1)对每个模态的独立信息进行编码,对应 modal-encoding layer,(2)对模态之间的相互作用进行建模,对应 modal-interaction layer,(3)通过各个模态的监督信息优化模型,对应 modal-task layer。
图 3
(1)modal-encoding layer。在对每个模态的单个信息进行编码时,针对图像模态、文本模态以及常识模态,咱们采纳基于 Transformer 的编码器提取图像、文本、三元组外表模式的初始特色。其中文本模态和常识模态的编码器参数共享。
(2)modal-interaction layer。当建模模式之间的相互作用时,有两个过程。第一个过程是文本模态和图像模态之间的交互:首先通过 co-attention Transformer 基于图像和文本模态的初始特色学习对应的交互特色,其次,为了放弃单个模态的独立性,咱们提出通过初始交互特色交融模块来交融图像和文本模态的初始特色及其交互特色。第二个过程是常识模态和其余两个模态的交互:首先用图像和文本模式的交互后果作为指标产品的初始示意, 用三元组关系和尾实体的外表状态特色作为的商品属性和属性值的示意。而后通过构造聚合模块流传并在指标产品实体上聚合商品属性和属性值信息。商品实体的最终示意能够用于各种上游工作。
(3)modal-task layer。图像模态、文本模态和常识模态的预训练任务别离为掩码对象模型、掩码语言模型和链接预测模型。
五 试验与实际
1 试验(论文的试验)
K3M 在淘宝 4 千万商品上训练, 其中每个商品蕴含一个题目, 一张图片和一组相干的三元组。咱们设置不同的模态缺失和乐音比率,在商品分类、产品对齐以及多模态问答 3 个上游工作上评估了 K3M 的成果,并与几个罕用的多模态预训练模型比照: 单流模型 VLBERT, 和两个双流模型 ViLBERT 和 LXMERT。试验后果如下:
图 3 显示了各种模型对商品分类的后果,能够察看到: (1)当模态缺失或模态噪声存在时,基线模型重大不足鲁棒性。当 TMR 减少到 20%、50%、80% 和 100% 时,“ViLBERT”、“LXMERT”和“VLBERT”的性能从 TMR=0% 均匀降落 10.2%、24.4%、33.1% 和 40.2%。(2)带有缺失和噪声的文本模态对性能的影响大于图像模态。比照 3 个基线的“题目噪声”和“图像噪声”,随着 TNR 的减少,模型性能降落了 15.1% ~ 43.9%,而随着 INR 的减少,模型性能降落了 2.8% ~ 10.3%,阐明文本信息的作用更为重要。(3)引入常识图能够显著改善模态缺失和模态噪声问题。在无 PKG 基线的根底上,“ViLBERT+PKG”、“LXMERT+PKG”和“VLBERT+PKG”在 TMR 从 0% 减少到 100% 时的均匀改善率别离为 13.0%、22.2%、39.9%、54.4% 和 70.1%。(4)K3M 达到了最先进的性能。它将“ViLBERT+PKG”、“LXMERT+PKG”和“VLBERT+PKG”在各种模态缺失和模态噪声设置下的后果进步了 0.6% 到 4.5%。
图 4 显示了产品对齐工作的后果。在这个工作中,咱们能够失去相似于在我的项目分类工作中的察看后果。此外,对于模态缺失,模型性能不肯定随着缺失率的减少而升高,而是稳定的: 当缺失率 (TMR、IMR 和 MMR) 为 50% 或 80% 时,模型性能有时甚至比 100% 时更低。实际上,这个工作的实质是学习一个模型来评估两个我的项目的多模态信息的相似性。直觉上,当对齐的商品对中的两个我的项目同时短少题目或图像时,它们的信息看起来比一个我的项目短少题目或图像而另一个我的项目什么都不缺时更类似。
表 2 显示了多模态问答工作的排序后果。在这个工作中,咱们也能够看到相似于在商品分类工作中的察看后果。
2 实际(阿里的业务利用成果)
1、饿了么新批发导购算法,离线算法 AUC 晋升 0.2% 绝对值;在线 AB-Test 试验,流量 5%,5 天:CTR 均匀进步 0.296%,CVR 均匀进步 5.214%,CTR+CVR 均匀进步:5.51%;
2、淘宝主搜找类似服务,离线算法 AUC 晋升 1%,业务方反馈是很大的晋升;目前在线 AB 测试中;
3、阿里妈妈年货节商品组合算法,在线算法,基于 Emedding 的试验桶(5.52%)CTR 指标相较于另外 2 个试验桶(5.50%,5.48%)别离进步 0.02%、0.04% 的点击率,绝对进步别离为 0.363%、0.73%;
4、小蜜算法团队低志愿下的类似商品的举荐,整体减少这一路的召回状况下,转化能有 2.3% 到 2.7% 左右的晋升,绝对晋升 12.5%。之前版本绝对晋升 11%。后续扩大到其余场景。
原文链接
本文为阿里云原创内容,未经容许不得转载。