关于人工智能:全球最大规模中文跨模态生成模型文心ERNIEViLG来了

前不久，百度产业级常识加强大模型“文心”全景图亮相，近日，其中的跨模态生成模型 ERNIE-ViLG 在百度文心官网凋谢体验入口，并放出了论文。

体验链接：https://wenxin.baidu.com/wenx…

论文链接：https://arxiv.org/pdf/2112.15…

据悉，文心 ERNIE-ViLG 参数规模达到 100 亿，是目前为止寰球最大规模中文跨模态生成模型，该模型首次通过自回归算法将图像生成和文本生成对立建模，加强模型的跨模态语义对齐能力，显著晋升图文生成成果。

先来体验下文心 ERNIE-ViLG“图像创作”能力。

在文字生成图像上，文心 ERNIE-ViLG 能够依据用户输出的文本，主动创作图像，生成的图像不仅合乎文字描述，而且达到了十分真切的成果。

留神！以下图片都是全新生成，并非可间接搜寻到的原图。

文心 ERNIE-ViLG 不仅能创作修建、动物等单个物体：

还能够创作蕴含多个物体的简单场景：

甚至能依据用户输出的文字要求脑洞大开：

对于具备有限想象力的古诗词，文心 ERNIE-ViLG 也能生成恰到好处的画面，并依据不同的图画格调也有所调整：

油画格调

中国画格调水彩画格调

此外，还能依据文字提醒对图片进行补全：

而在图像到文本的生成上，文心 ERNIE-ViLG 可能了解画面，用简洁的语言形容画面的内容：

不仅如此，文心 ERNIE-ViLG 还可能依据图片中的场景答复相干的问题：

目前文心 ERNIE-ViLG 在百度文心官网凋谢体验的文本生图像 demo 可能依据古诗词进行作画，加强诗词的画面感。

在这些能力的背地，到底蕴含着怎么的 AI 技术秘密？

跨模态生成： AI 畛域极具挑战性的一道“难题”

跨模态生成，指的是将一种模态（文本、图像、语音）转换成另一种模态，同时放弃模态之间的语义一致性。

图文生成是跨模态生成的挑战之一。以文本生成图片为例，文本形容概括性强，依据文本生成图片，须要思考大量文字中未涵盖的细节信息，具备极高的挑战性。例如诗句“春江水暖鸭先知”，仅仅形容了江水、鸭子两个物体和春天这个节令，但没有具体形容鸭子的色彩、江边的桃花以及图中物体之间的地位关系。

春江水暖鸭先知

近些年来，基于生成反抗网络（GAN）的办法在人脸、风光等受限畛域的文本到图像生成工作上已获得了不错的成果；DALL-E 通过超大规模的自回归生成模型，在图像片段之间建设了前后依赖的关系，从而具备多样性生成的建模能力，在多样性更强、难度更大的凋谢畛域文本到图像生成上获得了亮眼的成果。

百度文心 ERNIE-ViLG 模型则进一步提出对立的跨模态双向生成模型，通过自回归生成模式对图像生成和文本生成工作进行对立建模，更好地捕获模态间的语义对齐关系，从而同时晋升图文双向生成工作的成果。文心 ERNIE-ViLG 在文本生成图像的权威公开数据集 MS-COCO 上，图片品质评估指标 FID（Fréchet Inception Distance）远超 OpenAI 的 DALL-E 等同类模型，并刷新了图像形容多项工作的最好成果。此外，文心 ERNIE-ViLG 还凭借弱小的跨模态理解能力，在生成式视觉问答工作上也获得了当先问题。

文心 ERNIE-ViLG 技术原理解读： 图文双向生成对立建模

百度文心 ERNIE-ViLG 应用编码器 - 解码器参数共享的 Transformer 作为自回归生成的骨干网络，同时学习文本生成图像、图像生成文本两个工作。

基于图像向量量化技术，文心 ERNIE-ViLG 把图像示意成离散的序列，从而将文本和图像进行对立的序列自回归生成建模。在文本生成图像时，文心 ERNIE-ViLG 模型的输出是文本 token 序列，输入是图像 token 序列；图像生成文本时则依据输出的图像序列预测文本内容。两个方向的生成工作应用同一个 Transformer 模型。视觉和语言两个模态在雷同模型参数下进行雷同模式的生成，可能促成模型建设更好的跨模态语义对齐。

文心 ERNIE-ViLG 图文双向生成对立建模框架

已有基于图像离散示意的文本生成图像模型次要采纳两阶段训练，文本生成视觉序列和依据视觉序列重建图像两个阶段独立训练，文心 ERNIE-ViLG 提出了端到端的训练方法，将序列生成过程中 Transformer 模型输入的隐层图像示意连贯到重建模型中进行图像还原，为重建模型提供语义更丰盛的特色；对于生成模型，能够同时接管本身的形象监督信号和来自重建模型的原始监督信号，有助于更好地学习图像示意。

文心 ERNIE-ViLG 构建了蕴含 1.45 亿高质量中文文本 - 图像对的大规模跨模态对齐数据集，并基于百度飞桨深度学习平台在该数据集上训练了百亿参数模型，在文本生成图像、图像形容等跨模态生成工作上评估了该模型的成果。

文本生成图像（Text-to-image Synthesis） 工作成果

文心 ERNIE-ViLG 文本生成图像的能力在凋谢畛域公开数据集 MS-COCO 上进行了验证。评估指标应用 FID（该指标数值越低成果越好），在 zero-shot 和 finetune 两种形式下，文心 ERNIE-ViLG 都获得了最佳问题，成果远超 OpenAI 公布的 DALL-E 等模型。

文心 ERNIE-ViLG 在 MS-COCO 数据集上的成果

图像形容（Image Captioning） 工作成果

图像生成文本能力上，文心 ERNIE-ViLG 在 COCO-CN、AIC-ICC 两个公开中文图片题目生成数据集上, 都获得了最好问题。

文心 ERNIE-ViLG 在 AIC-ICC 数据集上的成果

生成式视觉问答（Generative VQA） 工作成果

在生成式视觉问答方面，文心 ERNIE-ViLG 也展现了不俗的实力。生成式视觉问答要求模型依据图像内容和对应的问题生成答案，模型须要具备深度的视觉内容理解能力和跨模态的语义对齐能力，并须要生成简短的答案文本，难度极高。文心 ERNIE-ViLG 在 FMIQA 数据集上获得了最好的成果，图灵测试的通过率达到了 78.5%，优于以后最好办法 14 个百分点。

文心 ERNIE-ViLG 在 FMIQA 数据集上的成果

让机器具备跨模态生成能力是人工智能的重要指标之一。在艺术创作、虚拟现实、图像编辑、AI 辅助设计、虚构数字人等畛域，文心 ERNIE-ViLG 这类跨模态大模型有着宽泛的利用前景，也为这些畛域将来的倒退提供了有限的创意和可能。作为百度“文心”大模型全景图中的重要一员，文心 ERNIE-ViLG 也代表着百度文心在跨模态大模型畛域迈出松软步调，从技术自主翻新和减速产业利用方面继续推动中国 AI 倒退。

点击 “此处” 即可疾速体验文心 ERNIE-ViLG～

关于人工智能:全球最大规模中文跨模态生成模型文心ERNIEViLG来了

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）