关于机器学习:走进一款新的文生图模型-Nvidia-eDiffI

45次阅读

共计 3550 个字符,预计需要花费 9 分钟才能阅读完成。

编者按:AIGC(AI 生成内容) 目前正处于暴发前夜。在前几期的 IDP Inspirtation,咱们已经介绍过大语言模型 GPT-3,图像编辑模型 Imagic 和 Runway Erase and Replace。

本期,让咱们追随 Victor Dey 一起走进 Nvidia 的文生图模型 eDiff-I,并一起探讨生成式 AI 的现状挑战和将来前景。

以下是译文,Enjoy!

作者 | Victor Dey, VentureBeat

编译 | 岳扬

人工智能(AI)文转图生成器畛域是当下科技公司的新战场。当初很多人工智能公司都想要开发一个生成模型,并可能通过绝对简略的文本提醒生成粗劣真切的图像。在 OpenAI 的 DALL-E 2[1]、谷歌的 Imagen[2] 和 Meta 的 Make-a-Scene 以其图像合成能力而闻名于天下之后,Nvidia 以其名为 eDiff-I[3] 的文转图模型退出了这场比赛。

与其余通过迭代去噪进行图像合成的生成式文转图模型不同,Nvidia 的 eDiff- I 应用一个专门对生成过程的不同区间进行去噪的弱小去噪器汇合。

Nvidia 独特的图像合成算法

eDiff- I 的开发者将该模型形容为“新一代生成性人工智能内容创作工具,可能提供前所未有的文转图性能”。

在最近发表的一篇论文中 [4],作者说,目前的图像合成算法在很大水平上依赖文本提醒来创立与文本齐全对标的信息,而文本调节简直齐全被疏忽,将图像合成工作转移成产生高度真切的图片。这导致人们意识到比起在整个生成过程中共享模型参数,可能有更好的办法来示意生成过程的这些模型。

“因而,与以后支流的做法相比,咱们更倡议训练一个专门用于不同合成阶段的文转图扩散模型汇合。”Nvidia 钻研团队在他们的论文中如此说。“为了放弃模型训练的效率,咱们最开始训练一个繁多的模型,而后将其逐渐拆分成专门的模型,为迭代生成过程的特定阶段进行更进一步的训练。”

eDiff- I 的图像合成管道是由三个扩散模型组成——一个低分辨率扩散模型,能够合成 64 x 64 分辨率的样本,以及两个高分辨率扩散模型,能够别离将图像逐渐上采样到 256 x 256 和 1024 x 1024 分辨率。

这些模型首先通过计算其 T5 XXL 嵌入和文本嵌入来解决输出的文本。eDiff- I 的模型架构还利用了从参考图像计算出来的 CLIP 图像编码。这些图像嵌入作为格调矢量送入级联扩散模型,逐渐生成分辨率为 1024 x 1024 的图像。

这些独特的步骤使 eDiff- I 对其生成的内容有更强的管制。除了将文本生成图像外,eDiff- I 模型还有两个性能——格调转移,容许你应用参考图像的格调来管制生成的图案的格调,以及“用文字绘画”,用户能够通过在虚构画布上绘制宰割图来创立图像,这个性能对于用户创立特定场景的图像来说十分不便。

图片起源:Nvidia AI

提出一种新的去噪过程

扩散模型的合成通常是通过一系列迭代去噪过程进行的,这些流程通过随机乐音逐步生成图像,在整个去噪过程中应用同一个去噪器神经网络。eDiff- I 模型采纳了另一种独特的去噪办法,该模型在生成过程的不同期间内训练专门用于去噪的去噪器汇合。Nvidia 将这种新的去噪网络称为“专家级去噪器”,并称这一过程极大地提高了图像生成的品质。

eDiff- I 应用的去噪架构。图片起源:Nvidia AI

Deepgram[5] 的首席执行官 Scott Stephenson 说,eDiff- I 提出的新办法能够被使用到 DALL- E 或 Stable Diffusion 的新版本中,可使合成图像在品质和控制能力方面获得重大提高。

Stephenson 通知 VentureBeat:“这必定会减少训练模型的复杂性,但在生产应用过程中并没有明显增加计算的复杂性,可能宰割和定义所产生的图像的每个组成部分应该是什么样子,能够减速图像创作过程。它能让人和机器更加严密地单干。”

比同期间的其余 AI 文转图生成器好?

其余同期间产品如 DALL-E 2 和 Imagen 只应用繁多的编码器,如 CLIP 或 T5,而 eDiff- I 的架构在同一模型中应用两个编码器。这样的架构使 eDiff- I 可能从雷同的文本输出中产生大量不同的视觉效果。

CLIP 为创立的图像提供了风格化的成果,然而,输入的图像常常脱漏文本信息。而应用 T5 文本嵌入创立的图像能够依据文本信息产生更好的内容。通过联合它们,eDiff- I 产生了集成这两种长处的图像。

雷同的文本输出产生的变动。图片起源:Nvidia AI

开发团队还发现,文本信息的描述性越强,T5 的体现就越比 CLIP 好,而且将两者联合起来会产生更好的合成输入。该模型还在规范数据集(如 MS-COCO)上进行了模型评估,表明 CLIP+T5 的 trade-off 曲线显著优于独自的任何一种。

Nvidia 的钻研表明,依据 Frechet Inception Distance(FID)——这是一种评估人工智能生成的图像品质的指标,eDiff- I 的体现优于 DALL-E 2、Make-a-Scene、GLIDE 和 Stable Diffusion 等竞争对手。

在 COCO 2014 验证数据集上同当下其余最先进的模型进行的 Zero-shot FID 得分比拟。图片起源:Nvidia AI

Nvidia 的钻研称,在对简略和具体的文字说明生成的图像进行比拟时,DALL-E 2 和 Stable Diffusion 都未能依据文字说明精确合成图像。此外,该钻研发现,其余生成模型要么会产生谬误的信息,要么疏忽了一些属性。同时,eDiff- I 能够在大量样本根底上正确地从英文文本中建设特色模型。

钻研小组也从每种办法中产生了多张输入图像,并挑出了最好的一张列入下图中。

生成式 AI 的以后挑战

当下文转图的扩散模型可能使艺术表白大众化,为用户提供了产生粗疏和高质量图像的能力,而不须要专门技能。然而,它们也能够被用于进行照片解决,以达到歹意目标或发明欺骗性或无害的内容。

生成模型和 AI 图像编辑的最新研究进展对图像的真实度和其余方面有着较大的影响。Nvidia 示意,可通过主动验证图像真实性和检测伪造的内容来应答此类挑战。

目前大规模文转图生成模型的训练数据集大多未经过滤,可能蕴含由模型捕捉并反映在生成数据中的偏差。因而,须要意识到根底数据中的这种偏差,并通过踊跃收集更具代表性的数据或应用偏差校对办法来对消偏差。

Stephenson 说:“生成式人工智能图像模型面临着与其余人工智能畛域雷同的伦理挑战:训练数据的出处和了解它如何被用于模型中,大的图像标注数据集可能蕴含受版权保护的资料,而且往往无法解释受版权保护的资料是如何(或是否)被利用在最终生成进去的图像的。”

依据 Stephenson 的说法,模型训练速度是生成式人工智能模型面临的另一个挑战,特地是在其开发阶段。

Stephenson 通知 VentureBeat 说:“如果一个模型在市场上最高端的 GPU 上生成一个图像须要 3 到 60 秒,那么如果达到规模部署要么须要大幅减少 GPU 的数量,要么想方法在在很少的工夫内生成图像。如果需要增长 10 倍或 100 倍,当初是无奈实现的。”

生成式 AI 的将来

reVolt[6] 公司的创始人兼首席执行官 Kyran McDonnell 说,只管当初的文转图模型曾经做得特地好,但还是不足必要的架构来构建正确理解事实所需的先验条件。

他说:“有了足够的训练数据和更好的模型,生成的图像将可能近似于事实,但模型还是不会真正了解生成的图像。在这个基本问题失去解决之前,咱们依然会看到这些模型犯一些常识性谬误。”

McDonnell 认为,下一代文转图的架构,如 eDiff-I,将解决目前的许多问题。

McDonnell 还说:“依然会呈现构图谬误,但品质将相似于当初生成人脸的 GANs,咱们会在几个应用领域看到生成式 AI 的更多利用。依据一个品牌的格调和‘气氛’训练进去的生成模型能够产生有限的创意,企业应用的空间很大,而生成性式 AI 还没有迎来它的‘辉煌时刻’。”

END

  • 封面首图由白海 AIGC 引擎生成
  • 其余插图来自 Nvidia AI

参考资料

[1] https://venturebeat.com/ai/to…

[2] https://venturebeat.com/ai/go…

[3] https://deepimagination.cc/eD…

[4] https://arxiv.org/pdf/2211.01…

[5] https://deepgram.com/

[6] https://www.revolt.energy/

IDP-Inspiration 是 IDP 常设专栏。在这里,咱们会分享国内外数据科学家和算法工程师在实战中总结的贵重教训,为想要从事数据迷信和 AI 开发生产相干工作的小伙伴提供借鉴!

AI 相干技术投稿,请分割 Alex@baihai.ai

正文完
 0