关于程序员:微软亚洲研究院多模态模型NÜWA以自然语言创造视觉内容

此前咱们曾提出了一个问题：从文字脚本生成创意视频一共分几步？微软亚洲研究院的凋谢畛域视频生成预训练模型给出了答案：只需一步。当初，咱们诘问：除了文字生成视频之外，还有哪些路径能够生成视频？咱们是否应用自然语言对视觉内容进行编辑？微软亚洲研究院最新推出的多模态模型 NÜWA，不仅让视觉内容发明多了一条路，甚至还让 Windows 经典桌面有了更多的打开方式。

人类对于信息的感知有五种路径，包含视觉、听觉、嗅觉、触觉和味觉，其中视觉是承受信息的最次要渠道，也是创造力的源泉。在推动人工智能倒退的路线上，计算机视觉曾经成为一个重要的钻研畛域，尤其是近几年视觉创作类利用的频繁涌现，让创作变得越来越便捷，越来越多的用户能够用这些工具制作和分享身边的美好生活。与此同时，视觉类利用的宽泛应用也促成了计算机视觉畛域的钻研。

然而，只管这些工具功能强大，但仍有不足之处：其一，它们须要创作者手动收集和解决视觉素材，导致现有的大规模视觉数据中所蕴含的视觉常识无奈主动地无效利用。其二，这些工具往往是通过图形界面与创作者交互，并非自然语言指令，因而对于一些用户来说，具备肯定的技术门槛，他们须要领有丰盛的应用教训。在微软亚洲研究院看来，下一代可视化内容创立工具应该可能利用大数据、AI 模型帮忙用户更便捷地进行内容创作，并应用自然语言作为更加敌对的交互界面。

在这样的理念下，微软亚洲研究院在视频生成预训练模型的根底上进行再翻新，开发了多模态的 NÜWA（Neural visUal World creAtion）模型。通过自然语言指令，NÜWA 能够实现文本、图像、视频之间的生成、转换和编辑，帮忙视觉内容创作者升高技术门槛，进步创造力。同时，开发者也能够利用 NÜWA 构建基于 AI 的视觉内容发明平台。

反对八大视觉生成与编辑工作

NÜWA 目前反对八大视觉生成和编辑工作。其中，反对图像的四类工作包含：文本到图像，草图到图像，图像补全，图像编辑；反对视频的四类工作包含：文本到视频，视频草图到视频，视频预测，视频编辑。

上面，让咱们以 Windows 经典桌面为例，试一下 NÜWA 的几个性能。（点击查看更多 NÜWA 在八大工作中的成果）

给定一张原始图片：

让 NÜWA 将图片补全为256×256（图像补全）：

让 NÜWA 在图片的红框地位处增加“一匹在草地上行走的马”（图像编辑）：

让 NÜWA 将这张图片生成为一个能“动”起来的视频（视频预测）：

凭“一己之力”实现多项视觉内容发明工作

NÜWA 模型提出了一种全新的 3D 编码器-解码器框架。编码器能够反对包含文本、图像、视频，或者草图等多种不同的输出条件，甚至是局部图片或局部视频，让模型补全后续的视频帧；解码器则将这些输出条件转换为离散的视觉标记，依据训练数据输入图像、视频内容。

在预训练阶段，研究员应用了自回归模型作为预训练任务来训练 NÜWA，其中 VQ-GAN 编码器将图像和视频转换为相应的视觉标记，作为预训练数据的一部分。在推理阶段，VQ-GAN 解码器会基于预测的离散视觉标记重建图像或视频。

NÜWA 还引入了三维稠密注意力（3D Nearby Attention，3DNA）机制来应答 3D 数据的个性，可同时反对编码器和解码器的稠密关注。也就是说，在生成特定图像的一部分或者一个视频帧时，NÜWA 不仅会看到曾经生成的历史信息，还会关注与其条件所对应地位的信息，比方，在由视频草图生成视频的过程中，生成第二帧时，模型就会思考第二帧草图对应的地位是什么，而后依照草图的变动生成满足草图变动的视频，这就是编码器和解码器的同时稠密。而此前的工作通常只是一维或二维的稠密关注，而且只在编码器稠密，或只在解码器稠密。通过应用 3DNA 机制，NÜWA 的计算复杂度失去了简化，晋升了计算效率。

图1：NÜWA 基于 3D 编码-解码架构

为了反对文本、图片、视频这些多模态工作的创立，逾越不同畛域数据的鸿沟，研究员采纳了逐渐训练的形式，在预训练中应用不同类型的训练数据。首先训练文本-图片工作和图片-视频工作，待工作稳固后，再退出文本-视频的数据进行联结训练，而且研究员们还应用了视频实现工作，依据给定的局部视频作为输出生成后续视频，使得 NÜWA 领有弱小的零样本视觉内容生成与编辑能力，实现图像、视频内容的增、删、改操作，甚至能够对视频的将来帧进行可控调整。

微软亚洲研究院高级研究员段楠示意，“NÜWA 是第一个多模态预训练模型。咱们心愿 NÜWA 能够实现真实世界的视频生成，但在训练过程中模型会产生大量的‘两头变量’，耗费微小的显存、计算等资源。因而，NÜWA 团队与零碎组的共事们联手合作，为 NÜWA 在零碎架构上设置了多种并行机制，如张量并行、管道并行和数据并行，使得咱们的跨模态训练成为可能。”

NÜWA 笼罩了11个数据集和11种评估指标。在文本到图像生成的弗雷切特起始间隔（Frechet Inception Distance, FID）指标上，NÜWA 的体现超过了 DALL-E 和 CogView，在视频生成的 FVD 指标上超过了 CCVS，均获得了以后 SOTA 后果。其中，测试后果如下（点击查看更多 NÜWA 在不同数据集和评估指标中的测试后果）：

表1：文本到图像工作测试后果

NÜWA-LIP：让视觉编辑更精密

NÜWA 模型已根本蕴含了视觉创作的外围流程，可在肯定水平上辅助创作者晋升效率，但在理论创作中，创作者还有很多多样且高质量的需要。为此，微软亚洲研究院的研究员们在 NÜWA 的根底之上更新迭代，于近日提出了NÜWA-LIP 模型，并且在视觉畛域的典型工作——缺点图像修复中获得了新冲破。

只管此前也有办法实现了相似的图像修复，然而模型的创作却比拟随便，无奈合乎创作者的志愿，而NÜWA LIP 简直能够依照给定的自然语言指令修复、补全成人们肉眼可承受的图像。上面，让咱们直观感受一下 NÜWA-LIP 神奇的图像修复成果。

图2：在图像编辑工作上，NÜWA-LIP 展现出优良的性能

图2给出了两个例子。第一个例子是心愿模型能够依照“Racers riding four wheelers while a crowd watches”（一群人在看摩托车手骑四轮车）来补全彩色区域。已有工作 GLIDE 尽管能够补全，然而能够看到边界处有显著的白线，并且补全的区域比拟含糊。NÜWA 模型应用自回归的形式从左到右顺次扫描生成，边界处相比于 GLIDE 更加天然。然而因为在补全彩色区域时看不到右侧的车轮，因而规范的 NÜWA 模型存在补全边界连接不对的问题。NÜWA-LIP 修复了 NÜWA 这一有余，它会提前预看整个图像，并翻新地应用无损编码技术，而后再自回归地生成，因而能够做到彩色区域边界处连接天然，并且补全区域也很清晰。

在 FID 指标测试中，通过将修复图与原始图比照，NÜWA-LIP 在自然语言批示图像修复的工作上获得了最好分数。（注：FID 分数越低示意修复图像的品质越高。）

表2：NÜWA-LIP 在图像编辑工作中的 FID 指标达到10.5

NÜWA-Infinity：让视觉创作趋于 “有限流”

除了图像修复之外，微软亚洲研究院在高分辨率、大图像的横向延展方面也进行了继续钻研，提出了 NÜWA Infinity 模型。顾名思义，NÜWA Infinity 能够依据给定的图像生成有限间断的高清“大片”。“一开始 NÜWA 可能生成、编辑的图像和视频的分辨率绝对较低，个别是256×256分辨率的小图。咱们心愿通过模型能够生成更高清的大图，造成更大的视觉冲击，满足不同创作者的理论需要。简略来说，NÜWA Infinity 会依据图像的不同档次内容扫描每一帧窗口，一直渲染造成高像素、间断的大图，”微软亚洲研究院研究员吴晨飞介绍说。

想晓得 Windows 经典桌面的右侧是什么样么？点击下图，NÜWA-Infinity 为你“揭开”神秘面纱。

段楠补充说，“外表看 NÜWA Infinity 解决了之前 NÜWA 生成图片不高清，以及视频帧数无限的问题。但其实 NÜWA Infinity 从底层造成了一套生成机制，不仅能够对图片进行延展式的生成，也能够利用于视频预测创作，而这也是咱们接下来要攻克的研究课题。”

自此，NÜWA-LIP 让机器承受语言指令主动修图成为了可能，而 NÜWA-Infinity 则使得图像生成品质向高清、有限的真实世界迈进了一大步。依照这样的迭代翻新步调，将来创作者领有一套趋于“有限流”的视觉创作辅助工具，不可企及。

NÜWA 多模态模型连锁反应：或将带来更多“杀手级”利用

将来，随着人工智能技术的倒退，加强事实、虚拟现实等沉迷式的人机交互界面将会失去更宽泛的利用，数字世界和物理世界的联合也将越来越严密。而不同类型的多模态内容则是拉近虚拟空间与事实世界的强力胶，因而，虚构内容的创立、编辑和交互将至关重要。NÜWA 提供的视觉内容生成和编辑技术，为这些利用提供了有限的设想空间。当多模态技术成为将来人工智能利用倒退的方向时，多模态模型将会为学习、广告、新闻、会议、娱乐、社交网络、数字人、脑机交互等畛域带来更多的下一代“杀手级”利用。

相干论文链接：

NÜWA：https://arxiv.org/abs/2111.12417

NÜWA-LIP：https://arxiv.org/abs/2202.05009

附录：

NÜWA 在八大工作中的成果

图3：文本到图像工作。例如，给定文本“A wooden house sitting in a field”(一个小木屋坐落在原野间)。NÜWA 创作了4种不同拍摄角度的小木屋，这些小木屋不仅朝向格调多样、而且真实性很好。

图4：草图到图像工作。例如，给定一张公共汽车的草图（第一行第一列），NÜWA 创作了3种满足草图形态和地位的图像，包含窗户的反光也清晰可见。

图5：图像补全工作。例如第1行，输出上方的塔尖（50%的原图），NÜWA 能够补全出塔下方的样子，圆柱甚至屋顶。对于第2行，当仅仅给5%的图像区域时，NÜWA 仍然能够做到图像补全。

图6：图像编辑。例如第1幅图，给定待编辑的图像、须要编辑的图像区域（红框）以及图像上方的文本“Beach and sky”（海滩和天空），第2幅图则给出了编辑后的后果。

图7：图像到视频工作。NÜWA 不仅能够根据常见的文本 “Play golf on grass”（在草地上玩高尔夫球）来生成视频，而且能够生成事实中不可能的视频，例如“Play golf on the swimming pool”（在泳池玩高尔夫球）。

图8：视频草图到视频。输出视频草图，NÜWA 能够生成帧和帧间断的视频。

图9：视频预测。输出静止图像，NÜWA 能够输入将其“动”起来的视频。

图10：视频编辑。输出编辑文本、视频，NÜWA 能够输入编辑之后的视频。例如，原视频潜水员在程度游动，通过第二幅图“The diver is swimming to the surface”（潜水员在向水面游去）的管制，生成的视频潜水员在向上游。

关于程序员:微软亚洲研究院多模态模型NÜWA以自然语言创造视觉内容

反对八大视觉生成与编辑工作

凭“一己之力”实现多项视觉内容发明工作

NÜWA-LIP：让视觉编辑更精密

NÜWA-Infinity：让视觉创作趋于 “有限流”

NÜWA 多模态模型连锁反应：或将带来更多“杀手级”利用

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于程序员:微软亚洲研究院多模态模型NÜWA以自然语言创造视觉内容

反对八大视觉生成与编辑工作

凭“一己之力”实现多项视觉内容发明工作

NÜWA-LIP：让视觉编辑更精密

NÜWA-Infinity：让视觉创作趋于 “有限流”

NÜWA 多模态模型连锁反应：或将带来更多“杀手级”利用

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复