关于人工智能:ACL2023基于电商多模态概念知识图谱增强的电商场景图文模型FashionKLIP

35次阅读

共计 3825 个字符,预计需要花费 10 分钟才能阅读完成。

近日,阿里云机器学习平台 PAI 与复旦大学肖仰华传授团队、阿里巴巴国际贸易事业部 ICBU 单干在自然语言解决顶级会议 ACL2023 上发表基于电商多模态概念常识图谱加强的电商场景图文模型 FashionKLIP。FashionKLIP 是一种电商常识加强的视觉 - 语言模型。该论文首先设计了从大规模电商图文数据中自动化构建多模态概念级常识图谱的计划,随后将概念级多模态先验常识注入到 VLP 模型中,以实现跨模态图文样本在概念层面进一步对齐。

论文:
Xiaodan Wang, Chengyu Wang, Lei Li, Zhixu Li, Ben Chen, Linbo Jin, jun huang, Yanghua Xiao and Ming Gao, FashionKLIP: Enhancing E-Commerce Image-Text Retrieval with Fashion Multi-Modal Conceptual Knowledge Graph. ACL 2023(Industry Track)

背景

图文检索作为一项风行的跨模态工作,在宽泛的工业利用中具备很强的实用价值。视觉 - 语言预训练 (VLP) 模型的蓬勃发展大大提高了跨不同模态数据的示意学习,从而带来了显著的性能晋升。然而,电商畛域的数据具备其本身的个性,如下图 (a) 所示:1)通用场景的文本大多蕴含残缺的句子构造形容,而电商场景中的形容或查问通常由多个形容性短语组成,形容了产品的材质或格调等细节信息。2)通用畛域的图像通常具备简单的背景;相比之下,商品图像次要蕴含一个大的商品图,没有很多背景物体。

(a) 电商场景的图像 - 文本对示例

基于电商图文的 VLP 模型 Fashion-BERT、KaleidoBERT、CommerceMM、EI-CLIP 和 FashionViL 等大大提高了电商图文检索工作的性能,但应用不同角度的商品图或基于图像块的分类办法仍未能解决细粒度的跨模态对齐问题,因此导致了图像和文本之间的细节匹配不精确,模型不足跨模态语义级对齐能力。其次,通用畛域模型能够通过指标检测、场景图解析或语义剖析来实现细粒度交互,然而这些办法难以间接利用于电商场景,也使得电商中的图文检索工作是更具挑战。

基于此,咱们提出了一种电商常识加强的 VLP 模型 FashionKLIP。一共蕴含两局部内容:数据驱动的构建策略,从大规模电商图文语料库中构建多模态电商概念常识图谱(FashionMMKG);和训练融入常识的训练策略,学习两种模态的图像 - 文本对的示意对齐,并通过将文本示意与 FashionMMKG 中时尚概念的视觉原型示意进行匹配,进一步失去概念对齐。

模型设计

模型蕴含两局部,如图 (b) 所示:第一局部,构建时尚多模态常识图谱 FashionMMKG:通过剖析大量的时尚文原本抽取并确定概念集,而后通过构建档次树来展现不同粒度下概念之间的关系,并在视觉档次上将每个概念与正确的图像匹配。第二阶段,融入跨模态常识的细粒度训练:不仅匹配输出文本中的概念到 FashionMMKG,而且将提取到的新概念挂载到相应的概念层级树中以裁减。每个概念抉择与输出图像最类似且思考多样性的前𝑘个图像作为视觉原型,在概念层面进行对齐优化设计。

(b) 以电商图像及文本为输出的 FashionKLIP 模型架构

FashionMMKG 构建

采纳自动化的构建办法,建设以电商概念为核心的多模态常识图谱,蕴含文本和视觉两个模态。

  • 文本模态:通过开掘海量时尚文本确定概念集,而后将每个概念与对应的图像进行匹配。咱们提取图文电商数据库中所有的文本,并利用 NLP 工具 spacy 进行句子成分剖析、词性标注,失去多粒度的概念短语。对于不同粒度的概念短语,通过判断两个概念是否互相蕴含,建设概念间关系三元组的模式的上下位关系。如图 (b) 中的 <“short sleeve t-shirt in white”, is-a, “short sleeve t-shirt”>。所有抽取出的关系三元组被组织成一个层次结构,如图 (c) 所示。层次结构的构建过程是动静的,当新概念呈现时,能够将其增加到现有的层级树中。

(c) 以“shorts”为根节点概念的层级子树结构

  • 视觉模态:咱们采纳基于提醒的图像检索办法为每个概念匹配图像,基于图像和文本特色的余弦间隔,抉择类似度最高的 top-𝑘图像作为概念的视觉原型,并采纳 MMR 算法来保障所选图像的多样性。这一过程在后续训练中将被迭代更新。

FashionKLIP 训练

在预处理阶段,对于输出的文本进行概念提取,并且对于局部未能与 FashionMMKG 中的概念汇合匹配上的新呈现的概念,主动扩大 FashionMMKG。FashionKLIP 模型为双流架构,蕴含图像和文本两个编码器,以保障在上游检索工作上图文匹配的效率。

如图 (b) 所示,FashionKLIP 由两个工作组成:用于全局匹配图像和文本的图像 - 文本比照学习(ITC),以及用于概念级对齐的概念 - 视觉对齐学习(CVA)。

  • ITC:咱们训练了一个 CLIP 格调的模型来学习图像 - 文本对的全局示意。对于每个训练批次中的图文对,优化图像 - 文本和文本 - 图像的比照匹配损失。
  • CVA:咱们利用对立的比照学习框架来对齐时尚概念和 FashionMMKG 中的视觉示意。将输出文本中的多粒度概念短语汇合集成到咱们的模型中,并进一步的从档次树中引入每个概念的父节点。对于每个概念与其最类似的 top𝑘图像,计算每个图像和输出图像之间的类似度,抉择得分最高的一组图像。咱们采纳加权穿插熵损失,以概念图像与输出图像之间的类似度作为权重,进行概念与最佳匹配概念图像的穿插熵损失进行计算。

模型评测

为了评测 FashionKLIP 模型的成果,咱们在以后风行的时尚基准数据集 FashionGen 上进行了试验,并依据现有 sota 模型的评测形式采纳了“full”和“sample”两种评测设置,试验后果如下:

FashionGen 数据集上的图文检索评测后果 ”sample”

FashionGen 数据集上的图文检索评测后果 ”full”

在两种测评设置下的试验结果表明,FashionKLIP 在电商图文检索工作上的性能优于最先进的模型。

为了进一步验证 FashionKLIP 办法的实用性,咱们还将其利用于理论场景:商品搜寻平台,在图像 - 商品和文本 - 商品两个检索子工作上进行了零样本场景下的验证,并将其与基线办法 CLIP 比拟,试验后果如下:

商品搜寻工作的检索后果

上述后果也进一步证实了 FashionKLIP 的实用价值及高效性。在将来,咱们会将常识加强的策略利用于个别的大规模预训练,从而可能为更多的多模态工作带来益处。为了更好地服务开源社区,FashionKLIP 算法的源代码和模型行将奉献在自然语言解决算法框架 EasyNLP 中,欢送从业人员和研究者应用。
EasyNLP 开源框架:https://github.com/alibaba/EasyNLP

参考文献

  • Dehong Gao, Linbo Jin, Ben Chen, Minghui Qiu, Peng Li, Yi Wei, Yi Hu, and Hao Wang. FashionBERT: Text and Image Matching with Adaptive Loss for Cross-modal Retrieval. ACM SIGIR, 2020: 2251-2260.
  • M Zhuge,D Gao,DP Fan,L Jin,B Chen,H Zhou,M Qiu,L Shao. Kaleido-BERT: Vision-Language Pre-training on Fashion Domain. CVPR, 2021: 12647-12657.
  • Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision. PMLR ICML, 2021: 8748–8763.
  • Rostamzadeh N, Hosseini S, Boquet T, et al. Fashion-gen: The generative fashion dataset and challenge. arXiv, 2018.
  • Yu L, Chen J, Sinha A, et al. Commercemm: Large-scale commerce multimodal representation learning with omni retrieval. ACM SIGKDD, 2022: 4433-4442.
  • Ma H, Zhao H, Lin Z, et al. EI-CLIP: Entity-Aware Interventional Contrastive Learning for E-Commerce Cross-Modal Retrieval. CVPR, 2022: 18051-18061.

论文信息

论文名字:FashionKLIP: Enhancing E-Commerce Image-Text Retrieval with Fashion Multi-Modal Conceptual Knowledge Graph.

论文作者:王小丹、汪诚愚、李磊、李直旭、陈犇、金林波、黄俊、肖仰华、高超
论文 PDF 链接:https://aclanthology.org/2023.acl-industry.16.pdf

收费支付 交互式建模 PAI-DSW、模型训练 PAI-DLC 5000CU* H 计算资源包,以及价值 500 元模型在线服务 PAI-EAS 抵扣包。

正文完
 0