关于人工智能:Meta提出用向量检索来改进图像描述模型

48次阅读

共计 1361 个字符，预计需要花费 4 分钟才能阅读完成。

出品人：Towhee 技术团队

作者：王翔宇顾梦佳

随着深度神经网络的倒退，主动图像形容技术获得了令人瞩目的停顿。然而，现有的办法次要重视生成的形容与人类参考形容之间的相似性，却漠视了形容在理论利用中的特定指标。Meta FAIR 实验室一项最新钻研提出了一种改良办法，通过引入判断性指标和强化学习，使得神经网络生成的图像形容更具信息量和可了解性，为理论利用带来了新的心愿。

论文认为，图像形容的一个根本指标是正确地形容一个物体，使得听者可能将其与其余环境元素辨别开来。为了实现这一指标，论文提出了一种应用强化学习的自监督判断通信指标来微调预训练的图像形容模型的办法。论文通过让图像形容模型与一个图像检索模型进行判断博弈来进行微调。

具体而言，给定一个指标图像，图像形容模型生成一段形容，而图像检索模型则应用这个形容从候选图像汇合中抉择出指标图像。这种微调办法不须要标注数据，且独立于底层的图像形容模型和图像检索模型。

该钻研采纳了一种称为 DiscriTune 的微调办法，通过强化学习，对预训练的图像形容模型进行微调，生成的形容作为输出传递给一个固定的判断器。判断器的工作是在一组烦扰图像中找到原始图像。通过这种微调办法，模型逐步学会生成更具辨识度和可辨别性的形容，更好地传播图像的特色和内容。

钻研团队应用了两种不同的图像形容模型进行试验：ClipCap 和 BLIP。ClipCap 是一个基于 GPT- 2 模型的图像条件模型，它应用一个可训练的映射网络将图像的视觉特色与 GPT- 2 嵌入空间进行关联，从而生成图像形容。BLIP 是一个由文本 Transformer 和视觉 Transformer 组成的大型图像形容模型，它通过跨模态注意力机制将视觉信息引入到生成的形容中。这些模型通过微调后，生成的形容更具信息量和可了解性。

为了评估改良办法的成果，钻研团队还应用了一个神经检索模型 CLIP 来进行试验。CLIP 是一个多模态双编码器模型，通过比照损失最大化文本和图像之间的相似性。通过计算形容与图像之间的匹配分数，能够判断图像是否被正确检索进去。

在优化过程中，因为解码过程具备离散性，无奈间接应用损失函数进行端到端的反向流传。因而，钻研团队采纳了强化学习中的 REINFORCE 算法来优化图像形容模型。通过计算匹配分数的处分作为反馈信号，模型逐渐调整生成的形容，以最大化指标图像的匹配分数。

这个表格里列了一些重要后果。ClipCap 和 DiscriTune 在从蕴含 100 个候选图像的汇合中检索指标图像时的准确率（P@1），这些图像来自于 COCO、Conceptual Captions 和 Concadida 测试集以及 nocaps 验证集。能够看进去 DiscriTune 能带来较大的收益。