关于nlp:ACL-2021-百度NLP开源语言与视觉一体的统一模态预训练方法登顶各类榜单

百度独创地提出了语言与视觉一体的预训练方法 UNIMO，提供了一种新的对立模态学习范式，突破了文本、图像和图文对等数据间的边界，让机器能够像人一样利用大规模异构模态数据，学习语言常识与视觉常识并互相加强，从而实现感知与认知一体的通用 AI 能力。

百度在 2021 年深度学习开发者峰会 WAVE SUMMIT 上开源了语言与视觉一体的预训练模型 ERNIE-UNIMO，其外围办法 UNIMO 曾经被 NLP 顶级会议 ACL 2021 主会正式录用为 oral 长文。

在机器之心 7 月 31 日举办的 ACL 2021 论文分享会上，本文第一作者李伟具体介绍了他们的这项研究成果，感兴趣的同学能够点扫描下方二维码查看回顾视频。

AI 零碎是否像人一样，应用一个对立的大脑模型，实现感知认知一体的通用能力？基于此出发点，百度提出的 UNIMO 试图构建面向各种不同模态的对立预训练模型。

论文地址：\
https://arxiv.org/abs/2012.15409\
代码地址：\
https://github.com/PaddlePadd…

此办法独创的同时还能学习大量的文本、图像、图文对数据，通过跨模态比照学习，无效的让语言常识与视觉常识进行对立示意和互相加强。UNIMO 在语言了解与生成、跨模态了解与生成，4 类场景共 13 个工作上超过支流的文本预训练模型和跨模态预训练模型，同时登顶视觉问答榜单 VQA、文本推理榜单 aNLI 等权威榜单，首次验证了通过非平行的文本与图像等繁多模态数据，可能让语言常识与视觉常识互相加强。目前 UNIMO 曾经逐渐在百度的产品中落地利用。

UNIMO 办法介绍

大数据是深度学习取得成功的要害根底之一。依据利用数据的模态不同，深度学习应用领域大体包含：在文本数据上进行自然语言解决，在视觉数据上进行视觉利用，在图文数据上进行跨模态利用。显然，人类大脑对各种模态数据的学习并非独立的，比方，人类大脑在看到图片之后可能主动联想到相干的语言常识，反之亦然。对各种模态数据的死记硬背，使得人类可能充沛学习各类语言、视觉、语音常识并互相加强，通过对立的模型展现出弱小的智能程度。那么，基于深度学习的 AI 零碎是否也能像人一样同时学习异构模态数据呢？如果可能实现，无疑将进一步关上深度学习对大规模数据利用的边界，从而进一步晋升 AI 零碎的感知与认知一体的通用 AI 能力。

为此，百度提出面向异构模态数据的对立预训练方法 UNIMO，同时应用文本、图像和图文对数据进行训练，学习文本和图像的对立语义示意，从而具备同时解决多种繁多模态和跨模态上游工作的能力。UNIMO 的外围模块是一个 Transformer 网络，在具体训练过程中，文本、图像和图文对三种模态数据随机混合在一起，其中图像被转换为指标（object）序列，文本被转换为词（token）序列，图文对被转换为指标序列和词序列的拼接。UNIMO 对三种类型数据进行对立解决，在指标序列或者词序列上基于掩码预测进行自监督学习，并且基于图文对数据进行跨模态比照学习，从而实现图像与文本的对立示意学习。进一步的，这种联结学习办法也让文本常识和视觉常识相互加强，从而无效晋升文本语义示意和视觉语义示意的能力。

异构模态的对立预训练最大的挑战是如何逾越不同模态间的语义鸿沟从而实现语义示意的对立。如下图所示，UNIMO 提出了翻新的跨模态比照学习办法，同时引入相关联的图文对数据、文本数据和图像数据进行联结比照学习。具体地，UNIMO 通过文本改写的形式，对图文对进行数据增广，取得大量的正例和强负例图文对数据。同时为了更好的利用文本和图像数据，UNIMO 通过文本与图像检索，取得相干的图像和文本作为正例。这样利用裁减后的多种类型的正例以及高质量强负例，UNIMO 在对立的语义空间上进行联想比照，从而可能学习到准确对齐的跨模态语义示意。

UNIMO 试验后果

在试验方面，UNIMO 应用了大量的文本、图像和图文数据进行联结学习，同时在各种繁多模态和跨模态上游工作上进行验证。预训练数据局部，文本语料包含 Wikipedia、BookCorpus、OpenWebText 等共 54G 语料；图像数据是从互联网爬取的 170 万张图像；而图文对数据则包含 COCO Caption、Visual Genome、Conceptual Caption、SBU Caption。上游工作既包含图文搜寻、视觉问答、图形容生成、视觉推断等跨模态工作，也包含文本分类、浏览了解、文本摘要、问题生成等各种文本工作。模型上，Base 基于 12 层的 Transformer，而 Large 应用 24 层。

在跨模态工作上，论文次要比照 ViLBERT、UNITER、Oscar、Villa 等最新的跨模态预训练模型。试验结果表明，UNIMO 在图文检索 Flick、视觉推断 SNLI-VE、视觉问答 VQA、图形容生成 CoCo Caption 上均稳固地超过此前的各种预训练模型，充分说明了对立预训练 UNIMO 模型可能无效地解决各种跨模态工作。

特地地，UNIMO 同时还能解决纯文本工作。此前的跨模态预训练模型，在解决纯文本工作的时候成果急剧下降，局部工作降落幅度甚至超过 10-20 个点。而 UNIMO 在各类文本了解和生成工作上，包含文本分类、文本推断、文本摘要、浏览了解和问题生成，均获得不错的成果，超过 RoBERTa、XLNet、UniLM 等经典文本模型。

为了验证 UNIMO 进行繁多模态和跨模态对立学习的必要性，论文进行了拆散试验。试验结果表明，当不应用文本数据进行预训练的时候 UNIMO 在跨模态工作上成果有所降落。而当不应用图文对数据和图像数据的时候，UNIMO 在文本工作上同样会降落。这充分说明，UNIMO 对立学习的形式，可能让文本常识与视觉常识互相加强，无效晋升工作成果。

UNIMO 利用

UNIMO 能够反对各类文本与跨模态工作，既能够反对以文搜图和以图搜文，也能反对依据图片生成文字描述、依据文字描述主动生成图片，还反对对图片内容进行问答。当然 UNIMO 也反对纯语言的工作，如文本推理、浏览了解、文本生成等。从理论利用工作的后果来看，钻研发现 UNIMO 可能让视觉和语言相互加强，从而实现更好的利用成果。目前局部技术曾经开始在百度搜寻中落地，帮忙用户获取更合乎需要的图片、视频。这里看下理论工作上的样例成果。

跨模态检索：以文搜图、以图搜文

UNIMO 可能依据文字描述搜寻相干图片，或者依据图片搜寻相干文本形容。从后果上看，UNIMO 可能更精确的了解文字或图片的语义，检索出更匹配的图片或文字。

\
跨模态问答：

UNIMO 也反对应用自然语言对图片内容进行发问。UNIMO 能了解图片中的内容和概念，并联合模型学习到的背景常识，精确的进行推理答复。

\
跨模态生成：依据文字生成图片

UNIMO 可能依据文字描述生成对应的图片。从后果中，咱们能够发现 UNIMO 可能很好地对齐视觉和语言的属性和概念，从而生成精确清晰的图片。

\
百度独创地提出了语言与视觉一体的预训练方法 UNIMO，提供了一种新的对立模态学习范式，突破了文本、图像和图文对等数据间的边界，让机器能够像人一样利用大规模异构模态数据，学习语言常识与视觉常识并互相加强，从而实现感知与认知一体的通用 AI 能力。或者，异构模态的对立学习是迈向通用人工智能的要害节点之一。将来百度将在对立模态学习上做出更多工作和利用，敬请期待。

扫描下方二维码即可查看视频介绍～

关于nlp:ACL-2021-百度NLP开源语言与视觉一体的统一模态预训练方法登顶各类榜单

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）