共计 2678 个字符,预计需要花费 7 分钟才能阅读完成。
前不久,百度产业级常识加强大模型“文心”全景图亮相,近日,其中的跨模态生成模型 ERNIE-ViLG 在百度文心官网凋谢体验入口,并放出了论文。
体验链接:https://wenxin.baidu.com/wenx…
论文链接:https://arxiv.org/pdf/2112.15…
据悉,文心 ERNIE-ViLG 参数规模达到 100 亿,是目前为止寰球最大规模中文跨模态生成模型,该模型首次通过自回归算法将图像生成和文本生成对立建模,加强模型的跨模态语义对齐能力,显著晋升图文生成成果。
先来体验下文心 ERNIE-ViLG“图像创作”能力。
在文字生成图像上,文心 ERNIE-ViLG 能够依据用户输出的文本,主动创作图像,生成的图像不仅合乎文字描述,而且达到了十分真切的成果。
留神!以下图片都是全新生成,并非可间接搜寻到的原图。
文心 ERNIE-ViLG 不仅能创作修建、动物等单个物体:
还能够创作蕴含多个物体的简单场景:
甚至能依据用户输出的文字要求脑洞大开:
对于具备有限想象力的古诗词,文心 ERNIE-ViLG 也能生成恰到好处的画面,并依据不同的图画格调也有所调整:
油画格调
中国画格调 水彩画格调
此外,还能依据文字提醒对图片进行补全:
而在图像到文本的生成上,文心 ERNIE-ViLG 可能了解画面,用简洁的语言形容画面的内容:
不仅如此,文心 ERNIE-ViLG 还可能依据图片中的场景答复相干的问题:
目前文心 ERNIE-ViLG 在百度文心官网凋谢体验的文本生图像 demo 可能依据古诗词进行作画,加强诗词的画面感。
在这些能力的背地,到底蕴含着怎么的 AI 技术秘密?
跨模态生成: AI 畛域极具挑战性的一道“难题”
跨模态生成,指的是将一种模态(文本、图像、语音)转换成另一种模态,同时放弃模态之间的语义一致性。
图文生成是跨模态生成的挑战之一。以文本生成图片为例,文本形容概括性强,依据文本生成图片,须要思考大量文字中未涵盖的细节信息,具备极高的挑战性。例如诗句“春江水暖鸭先知”,仅仅形容了江水、鸭子两个物体和春天这个节令,但没有具体形容鸭子的色彩、江边的桃花以及图中物体之间的地位关系。
春江水暖鸭先知
近些年来,基于生成反抗网络(GAN)的办法在人脸、风光等受限畛域的文本到图像生成工作上已获得了不错的成果;DALL-E 通过超大规模的自回归生成模型,在图像片段之间建设了前后依赖的关系,从而具备多样性生成的建模能力,在多样性更强、难度更大的凋谢畛域文本到图像生成上获得了亮眼的成果。
百度文心 ERNIE-ViLG 模型则进一步提出对立的跨模态双向生成模型,通过自回归生成模式对图像生成和文本生成工作进行对立建模,更好地捕获模态间的语义对齐关系,从而同时晋升图文双向生成工作的成果。文心 ERNIE-ViLG 在文本生成图像的权威公开数据集 MS-COCO 上,图片品质评估指标 FID(Fréchet Inception Distance)远超 OpenAI 的 DALL-E 等同类模型,并刷新了图像形容多项工作的最好成果。此外,文心 ERNIE-ViLG 还凭借弱小的跨模态理解能力,在生成式视觉问答工作上也获得了当先问题。
文心 ERNIE-ViLG 技术原理解读: 图文双向生成对立建模
百度文心 ERNIE-ViLG 应用编码器 - 解码器参数共享的 Transformer 作为自回归生成的骨干网络,同时学习文本生成图像、图像生成文本两个工作。
基于图像向量量化技术,文心 ERNIE-ViLG 把图像示意成离散的序列,从而将文本和图像进行对立的序列自回归生成建模。在文本生成图像时,文心 ERNIE-ViLG 模型的输出是文本 token 序列,输入是图像 token 序列;图像生成文本时则依据输出的图像序列预测文本内容。两个方向的生成工作应用同一个 Transformer 模型。视觉和语言两个模态在雷同模型参数下进行雷同模式的生成,可能促成模型建设更好的跨模态语义对齐。
文心 ERNIE-ViLG 图文双向生成对立建模框架
已有基于图像离散示意的文本生成图像模型次要采纳两阶段训练,文本生成视觉序列和依据视觉序列重建图像两个阶段独立训练,文心 ERNIE-ViLG 提出了端到端的训练方法,将序列生成过程中 Transformer 模型输入的隐层图像示意连贯到重建模型中进行图像还原,为重建模型提供语义更丰盛的特色;对于生成模型,能够同时接管本身的形象监督信号和来自重建模型的原始监督信号,有助于更好地学习图像示意。
文心 ERNIE-ViLG 构建了蕴含 1.45 亿高质量中文文本 - 图像对的大规模跨模态对齐数据集,并基于百度飞桨深度学习平台在该数据集上训练了百亿参数模型,在文本生成图像、图像形容等跨模态生成工作上评估了该模型的成果。
文本生成图像(Text-to-image Synthesis) 工作成果
文心 ERNIE-ViLG 文本生成图像的能力在凋谢畛域公开数据集 MS-COCO 上进行了验证。评估指标应用 FID(该指标数值越低成果越好),在 zero-shot 和 finetune 两种形式下,文心 ERNIE-ViLG 都获得了最佳问题,成果远超 OpenAI 公布的 DALL-E 等模型。
文心 ERNIE-ViLG 在 MS-COCO 数据集上的成果
图像形容(Image Captioning) 工作成果
图像生成文本能力上,文心 ERNIE-ViLG 在 COCO-CN、AIC-ICC 两个公开中文图片题目生成数据集上, 都获得了最好问题。
文心 ERNIE-ViLG 在 AIC-ICC 数据集上的成果
生成式视觉问答(Generative VQA) 工作成果
在生成式视觉问答方面,文心 ERNIE-ViLG 也展现了不俗的实力。生成式视觉问答要求模型依据图像内容和对应的问题生成答案,模型须要具备深度的视觉内容理解能力和跨模态的语义对齐能力,并须要生成简短的答案文本,难度极高。文心 ERNIE-ViLG 在 FMIQA 数据集上获得了最好的成果,图灵测试的通过率达到了 78.5%,优于以后最好办法 14 个百分点。
文心 ERNIE-ViLG 在 FMIQA 数据集上的成果
让机器具备跨模态生成能力是人工智能的重要指标之一。在艺术创作、虚拟现实、图像编辑、AI 辅助设计、虚构数字人等畛域,文心 ERNIE-ViLG 这类跨模态大模型有着宽泛的利用前景,也为这些畛域将来的倒退提供了有限的创意和可能。作为百度“文心”大模型全景图中的重要一员,文心 ERNIE-ViLG 也代表着百度文心在跨模态大模型畛域迈出松软步调,从技术自主翻新和减速产业利用方面继续推动中国 AI 倒退。
点击 “此处” 即可疾速体验文心 ERNIE-ViLG~