关于算法:走进AI图像生成核心技术-Diffusion

7次阅读

共计 3376 个字符,预计需要花费 9 分钟才能阅读完成。

编者按:2022 年,Diffusion model 成为图像生成畛域的重要发现,推动了 AI 绘画利用的爆发式倒退。Diffusion 模型相较于其余的图像生成模型,在所需数据更少的背景下,图像生成成果有显著晋升。
援用
本期 IDP Inspiration,咱们将和大家一起走进 Diffusion 的发展史。
援用
以下是译文,Enjoy!

作者 | Kyle Wiggers

编译 | 岳扬

随着技术的提高,人工智能发明的艺术保真度失去了大大加强,文转图人工智能在往年暴发了。只管像 Stable Diffusion 和 OpenAI 的 DALL-E 2 这样的零碎存在许多争议,但包含 DeviantArt 和 Canva 在内的很多平台曾经采纳它们来制作创意工具,实现品牌的个性化,甚至创意新产品。

但这些零碎的核心技术 – Diffusion – 的能力远远不止生成艺术作品,它还被一些钻研小组用来制作音乐,合成 DNA 序列,甚至用于研制新药。

那么,到底什么是 Diffusion,为什么它与以前的技术水平相比有如此大的飞跃?咱们须要来理解一下 Diffusion 的起源,以及它是如何随着工夫的推移而倒退成明天这样有影响力的。Diffusion 的故事还没有完结——每个月都会呈现技术的改良,尤其过来一两年呈现了显著的提高。

Diffusion 的诞生

你或者还记得几年前爆火的 deepfaking——这些 App 将人们的肖像插入现有的图像和视频中,发明出看起来很实在的换脸视频。利用人工智能,这些 App 会将一个人的脸,或者在某些状况下,他们的整个身材插入到某个场景中,往往可能产生足够的说服力,骗过大多数人。

这 App 大多依附一种叫做生成反抗网络的人工智能技术,简称 GANs。GANs 由两局部组成:一个从随机数据中产生合成内容(如图像)的生成器和一个试图辨别合成内容和训练数据集中的实在内容的鉴别器。生成器和鉴别器互相配合进步生成或鉴别能力,直到鉴别器无奈从合成的例子中分辨出实在的例子,此时其准确率曾经高于预期的 50%。

哈利 - 波特和霍格沃茨的沙雕,由 Stable Diffusion 生成。图片起源:Stability AI

好的 GAN 能够创立很多真切的图片,例如虚构的公寓楼照片 [1]。Nvidia 几年前开发的 StyleGAN,通过学习面部姿态、雀斑和头发等属性,能够生成虚构人物的高分辨率头像。除了生成图像之外,GANs 还被利用于构建 3D 建模空间和绘制矢量草图[2],输入视频片段[3] 以及语音[4],甚至还能利用乐器演奏样本生成歌曲。

不过,在实践中,GANs 因为其构造而存在一些缺点。生成器和鉴别器的同时训练自身就是非常不稳固的。有时生成器会“解体”,输入许多看起来很类似的样本。GANs 还须要大量的数据和计算能力来运行和训练,这使得它们难以进行扩大。

Diffusion 是如何工作的

Diffusion 的灵感来自于物理学——物理学中物质从高浓度区域向低浓度区域挪动的过程,就像糖块在咖啡中的溶解。咖啡中的糖粒最后集中在液体的顶部,但逐步变得扩散。

Diffusion 特地借用了非均衡热力学中的扩散,该过程随着工夫的推移减少了零碎的熵(或随机性)。比方气体最终会通过随机静止扩散开来,平均地充斥整个空间。同样,像图像这样的数据也能够通过随机增加噪声而转变为均匀分布。

Diffusion 通过增加乐音缓缓地毁坏数据的构造,直到除了乐音什么都不剩。

在物理学中,扩散是自发的和不可逆的——扩散到咖啡中的糖不能复原到立方体的模式。但机器学习中的扩散零碎旨在学习一种“反向扩散”过程来复原被毁坏的数据,取得从噪声中复原数据的能力。

Diffusion 曾经存在了近十年,然而 OpenAI 最近的一项翻新,即 CLIP(Contrastive Language-Image Pre-Training 的简称)使它们在日常利用中更加实用。CLIP 对数据(例如图像)进行分类,依据它在给定的文本提醒下被分类成某一类的可能性(例如:“花丛中的狗素描画”),对扩散过程的每一步进行“评分”。

在最开始的时候,会给数据一个非常低的 CLIP 分数,因为它大部分是噪声。但随着 Diffusion 从噪声中重建数据,它缓缓地靠近于文本提醒。能够用一个雕刻大理石的例子,就像一个雕刻巨匠通知一个老手在哪里雕刻一样,CLIP 疏导 Diffusion 生成一个能给出更高分数的图像。

OpenAI 将 CLIP 与图像生成零碎 DALL- E 一起推出。从那之后,又推出了 DALL- E 的后继者 DALL-E 2,以及诞生了像 Stable Diffusion 这样的开源替代品。

Diffusion 能做什么?

那么,CLIP 疏导的 Diffusion 能做什么?正如后面所提到的,它们在生成艺术作品方面相当杰出,从真切的艺术作品到素描、油画等,简直能够模拟任何艺术家的格调。事实上,有证据表明,它们会有针对性地反刍它们的一些训练数据。

但这些模型的天才(只管可能有争议)并没有到此为止。

钻研人员还尝试应用疏导式 Diffusion 来创作新音乐。Harmonai[5]是一个失去 Stability AI[6] 投资的公司,它公布了一个基于 Diffusion 的模型,通过对数百小时现有歌曲进行训练,能够输入音乐片段。最近,开发者 Seth Forsgren 和 Hayk Martiros 创立了一个被称为 Riffusion 的业余我的项目,该我的项目应用 Diffusion 奇妙地对音频的光谱图进行训练,以生成新的音乐。

除开音乐畛域之外,一些实验室正试图将 Diffusion 利用于生物医学,心愿能发现新的疾病医治办法。正如《MIT Tech Review》本月早些时候报道的那样[7],守业公司 Generate Biomedicines 和华盛顿大学的一个团队训练了一个基于 Diffusion 的模型,能够进行具备特定属性和性能的蛋白质设计。

这些模型以不同的形式工作。Generate Biomedicines 公司通过解开形成蛋白质的氨基酸链来减少噪声,而后在钻研人员指定的约束条件领导下,将随机链放在一起造成一个新的蛋白质。另一方面,华盛顿大学的模型从一个凌乱的构造开始,并应用一个独立的 AI 零碎来提供蛋白质碎片如何组合的信息来预测蛋白质构造。

他们曾经获得了一些成绩,华盛顿大学小组设计的模型找到了一种可能附着在甲状旁腺激素(管制血液中钙含量的激素)上的蛋白质,比现有药物更好。

  

       图片起源:PASIEKA/SCIENCE PHOTO LIBRARY/Getty Images

同时,在 OpenBioML[8],这是一个由 Stability AI 反对的我的项目,其将基于机器学习的办法引入生物化学的工作中,钻研人员开发了一个名为 DNA-Diffusion 的零碎,它可能生成细胞类型特异的调节性 DNA 序列(影响生物体内特定基因表白的核酸分子段)。如果所有按计划进行,DNA-Diffusion 将通过文本指令生成调节性 DNA 序列,比方“一个激活基因在 X 型细胞中达到最大表白程度的 DNA 序列”和“一个可能在肝脏和心脏中激活基因,但不在大脑中激活的 DNA 序列”。

Diffusion 的将来可能是什么?所有皆有可能。当初钻研人员曾经将其利用于生成视频 [9]、压缩图像[10] 和合成语音[11]。这并不是说 Diffusion 最终不会被更无效、性能更强的机器学习技术所取代,就像 GANs 被 Diffusion 取代一样。但它领有明天的辉煌是有起因的,Diffusion 如果不是多功能的,那就什么都不是。

参考资料

  1. https://syncedreview.com/2019…
  2. https://venturebeat.com/2019/…
  3. https://venturebeat.com/2019/…
  4. https://venturebeat.com/2019/…
  5. https://www.harmonai.org/
  6. https://stability.ai/
  7. https://www.technologyreview….
  8. https://techcrunch.com/2022/1…
  9. https://arxiv.org/pdf/2204.03…
  10. https://arstechnica.com/infor…
  11. https://arxiv.org/abs/2204.09934
正文完
 0