关于计算机视觉:AltCLIP改变语言编码器扩展语言功能

出品人：Towhee 技术团队张晨、顾梦佳

AltCLIP 提出了一种概念上简略无效的办法，以训练弱小的双语或多语多模态表征模型。以 OpenAI 公布的预训练多模态示意模型 CLIP 为根底，AltCLIP 另外采纳了预训练的多语言文本编码器 XLM-R，并通过一个由老师学习和比照学习组成的两阶段训练模式来调整语言和图像示意。试验结果表明，AltCLIP 在各种公开的图像数据集的一系列工作中均获得了最先进的性能，包含 ImageNet-CN、Flicker30k-CN、COCO-CN 和 XTD。此外，它在简直所有工作上都与 CLIP 性能靠近，这示意简略地更改 CLIP 中的文本编码器便能取得扩大性能，比方多语言了解。

The framework of AltCLIP.AltCLIP

在一个两阶段的框架下学习弱小的双语语言 - 图像示意。在第一阶段，通过老师学习策略提炼从大规模预训练模型 CLIP 学到的常识。该阶段应用 CLIP 的文本编码器作为老师文本编码器，而将 XLM-R 模型在多语言数据上的预训练作为学生编码器。而后通过一个全连贯层，对立 XLMR 模型与老师编码器的输入维度。在第二阶段，通过比照学习对绝对较少的中文和英文文本 - 图像对进行模型训练。该阶段旨在通过对多语言文本 - 图像对的比照学习来进一步提高文本 - 图像的一致性。这里框架应用了基于 ViT 的图像编码器，并应用从另一阶段学到的学生文本编码器作为文本编码器。

相干材料：

代码地址：https://github.com/FlagAI-Open/FlagAI
论文链接：AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities
更多材料：https://zhuanlan.zhihu.com/p/589700046