关于人工智能:ACL-2023面向轻量化文图检索的DualEncoder模型蒸馏算法ConaCLIP

近日，阿里云机器学习平台PAI与华南理工大学金连文传授团队单干在自然语言解决顶级会议ACL 2023上发表面向轻量化文图检索的dual-encoder模型蒸馏算法ConaCLIP（ fully-Connected knowledge interaction graph for CLIP）。ConaCLIP针对轻量化的图文检索工作进行设计，是一种通过全连贯的常识交互图学习形式将常识从dual-encoder大模型中蒸馏到dual-encoder小模型的算法。

论文：

Jiapeng Wang, Chengyu Wang, Xiaodan Wang, Jun Huang, Lianwen Jin. ConaCLIP: Exploring Distillation of Fully-Connected Knowledge Interaction Graph for Lightweight Text-Image Retrieval. ACL 2023 （Industry Track)

背景

文本-图像检索（Text-Image Retrieval）的目标是在给出一个特定的文本查问时，从一个大型的图像汇合中检索出一个最相干的图像列表。随着信息交互和社交场景的疾速倒退，该工作始终被认为是跨模态利用的一个要害组成部分，并被各种事实世界的场景所需要，如电子商业平台，网站等。

现有的文图检索模型通常能够依据模型架构分为两类：跨流编码器（cross-encoder）和双流编码器（dual-encoder）。跨流编码器通常会增加额定的Transformer层来建模图像和文本特色之间的深度交互关系。这种架构通常能够进步检索性能，然而毛病是当该类模型利用于整个图像汇合时，会导致检索速度十分迟缓。因为每当给出一个新的文本查问时，每个图像样本都须要进行跨模态的计算成本。相比之下，双流编码器是以一种齐全解耦的形式别离编码视觉和文本输出。该类架构容许图像示意独立于文本查问，而进行事后的计算和重复使用。双流编码器还能够在运行时与疾速近似最近邻（Approximate Nearest Neighbors）搜寻相结合。

只管双流编码器通常是事实利用中的首选，但现有的相干模型如CLIP在计算资源无限的边缘设施或动静索引场景如私人照片/音讯汇合上依然不太实用。为了解决这个问题，咱们的指标是从大规模的预训练双流编码器模型登程，专一于小模型预训练阶段的蒸馏过程，以取得一系列更小、更快、更无效的相应的轻量化模型。常识蒸馏（Knowledge Distillation）最先被提出利用soft targets将常识从老师转移给学生。MoTIS办法简略地反复在文本和图像畛域别离进行模态内蒸馏的过程。然而，这些办法都只波及了模态内的师生常识交互学习。

算法概述

与现有的工作不同，咱们的办法引入了全连贯常识交互图（fully-Connected knowledge interaction graph）用于预训练阶段的蒸馏。除了模态内老师-学生交互学习之外，咱们的办法还包含模态内学生-学生交互学习、模态间老师-学生交互学习和模态间学生-学生交互学习，如下图所示。

这种为学生网络建设的全连贯图能够看做是多视角和多任务的学习计划的集成，以此能够增强预训练模型所须要的稳健性和有效性。同时咱们倡议，每种类型的学习过程都应该具体地测试各种不同监督策略的成果。因而，咱们将在下一节中提出并验证各种监督策略对模型体现的影响。

监督策略计划

这里咱们提出了以下这些无效的监督策略：

InfoNCE loss是一种比照损失函数，如下式所示。MoTIS办法曾经胜利将其利用于预训练蒸馏之中。

Feature-wise distance (FD) loss旨在间接最小化特征向量之间的间隔。这里咱们应用平方的L2范数作为度量：

Similarity-wise distance (SD) loss冀望缩小相似矩阵之间的间隔度量：

KL-Div loss应用Kullback–Leibler散度来度量预测概率分布和指标概率分布之间的差别，并冀望最小化以下这个指标函数：

值得注意的是，SD loss和KL-Div loss中通常应用两个老师网络的输入作为两个学生网络学习的指标。而咱们这里额定尝试了应用如Figure 1中同色成对箭头作为互相学习的指标，咱们称之为symmetric（Sym）版本。例如，通常的KL-Div loss实现的模态间师生交互学习能够示意为：

而咱们提出的相应的Sym版本能够示意为：

这种形式加深了在优化过程中四个编码器之间的交互作用。

监督策略抉择

咱们旨在通过试验验证各种学习类型和监督策略的联合是否能够带来进一步的性能晋升。试验的后果如下表所示：

咱们能够察看到： 1) 通过适当地抉择具体的监督策略，每种学习类型都能够在基线的根底上进一步带来显著的改良。2) 每种学习类型的成果都很大水平上受到所实现的损失函数的影响。这也表明，咱们应认真探讨预训练蒸馏过程的监督策略。3)咱们提出的Sym版本损失（Sym-SD和Sym-KL-Div）在师生交互学习中通常具备优于规范版本的性能。在基线的根底之上，咱们最终的办法将所有无效的联合都进一步进行了集成。

算法精度评测

为了评测ConaCLIP算法的精度，咱们在一些罕用的文图检索数据集上进行了试验，后果如下：

后果能够证实，在所有评估指标下，ConaCLIP相比现有的办法和基准模型都有显著的改善。这充分证明了咱们办法的有效性。同时咱们将所提出的技术利用于阿里巴巴电子商务平台的某个端到端跨模态检索场景。本办法获得的性能指标、模型大小和减速比率如下表所示：

能够发现咱们的办法在根本保障模型性能的同时显著的升高了模型的存储空间并减少了模型的计算效率。为了更好地服务开源社区，ConaCLIP办法行将奉献在自然语言解决算法框架EasyNLP中，欢送NLP从业人员和研究者应用。

EasyNLP开源框架：https://github.com/alibaba/EasyNLP

参考文献

Chengyu Wang, Minghui Qiu, Taolin Zhang, Tingting Liu, Lei Li, Jianing Wang, Ming Wang, Jun Huang, Wei Lin. EasyNLP: A Comprehensive and Easy-to-use Toolkit for Natural Language Processing. EMNLP 2022
Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever. Learning Transferable Visual Models From Natural Language Supervision. ICML 2021
Geoffrey E. Hinton, Oriol Vinyals, Jeffrey Dean. Distilling the Knowledge in a Neural Network. NeurIPS 2014 Deep Learning Workshop
Siyu Ren, Kenny Zhu. Leaner and Faster: Two-stage Model Compression for Lightweight Text-image Retrieval. NAACL-HLT 2022

论文信息

论文题目：ConaCLIP: Exploring Distillation of Fully-Connected Knowledge Interaction Graph for Lightweight Text-Image Retrieval
论文作者：汪嘉鹏、汪诚愚、王小丹、黄俊、金连文

论文PDF链接：https://aclanthology.org/2023.acl-industry.8.pdf

收费支付交互式建模PAI-DSW、模型训练PAI-DLC 5000CU*H计算资源包，以及价值500元模型在线服务 PAI-EAS 抵扣包。

关于人工智能:ACL-2023面向轻量化文图检索的DualEncoder模型蒸馏算法ConaCLIP

背景

算法概述

监督策略计划

监督策略抉择

算法精度评测

参考文献

论文信息

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于人工智能:ACL-2023面向轻量化文图检索的DualEncoder模型蒸馏算法ConaCLIP

背景

算法概述

监督策略计划

监督策略抉择

算法精度评测

参考文献

论文信息

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复