4 Stable Diffusion

Stable Diffusion 是由 Stability AI 开发的开源扩散模型。Stable Diffusion 能够实现多模态工作,包含:文字生成图像(text2img)、图像生成图像(img2img)等。

4.1 Stable Diffusion 的组成部分

Stable Diffusion 由两局部组成

  • 文本编码器:提取文本 prompt 的信息
  • 图像生成器:依据文本 embedding 生成图像

    • 图像信息创立器:多步扩散过程。步长是其中一个超参数
    • 图像解码器:只在最初生成图像时运行一次
  • 文本编码器:由一种非凡的 Transformer 编码器组成,例如:OpenAI 的 Clip。
  • 图像信息创立器:自编码器(通常是 U-Net)和乐音机制组成。
  • 图像解码器:由自编码器的解码器组成。

Stable Diffusion Pipeline

  • Clip:文本信息编码

    • 输出:文本
    • 输入:77 token 的 embedding 向量,每个蕴含 768 维
  • U-Net + Noise Scheduler:逐步把信息扩散至潜空间中

    • 输出:文本 embedding 和由乐音组成的多维 tensor
    • 输入:解决后的 tensor
  • 自编码器的解码器:应用扩散/解决后的信息生成图像

    • 输出:通过解决的 tensor(shape: (4, 64, 64))
    • 输入:生成图像(shape:(3, 512, 512))

4.2 扩散过程(图像信息创立器)

扩散过程产生在图像信息创立器中。该过程一步步(step by step)进行。初始的输出为文本 embedding 和一个随机的图像信息数组(也称为潜变量 latents)。每一步扩散的输出是潜变量,输入是信息进一步丰盛的潜变量。最终的输入是一张图像。如图:

4.2.1 扩散过程的工作原理

扩散过程的原理其实是训练了一个基于 U-Net 和乐音等级机制(schedule)的乐音等级预测器。

扩散过程蕴含如下阶段:

  • 数据集筹备阶段:生成训练数据

    • 输出:蕴含清晰图像的数据集、不同级别的乐音等级机制
    • 流程:从数据集中抽样失去清晰图像,从乐音等级机制中抽样失去某种级别的乐音样本,把该乐音和图像交融
    • 输入:带有某种等级的乐音图像
  • 训练阶段:训练乐音等级预测器

    • 输出:把上一阶段中的乐音图像清晰图像作为输出数据,对应的乐音样本作为标签。
    • 训练:采纳 U-Net 作为神经网络,采纳监督 loss 对输出进行学习
    • 输入:某种等级的乐音样本
  • 推断阶段:去噪并生成图像

    • 输出:训练实现的 U-Net、某个乐音图像
    • 推断:U-Net 输入该乐音图像的乐音等级(乐音样本)
    • 输入:把乐音图像减去乐音样本,失去去噪图像。一直反复该过程,最终失去相似清晰图像的图像(并不一定完全相同)

生成图像的后果依赖于训练数据集。例如:Stable Diffusion 采纳了带有艺术成果的 LAION Aesthetics 数据集,因而生成图像也具备艺术成果。

4.3 提速:在潜空间扩散

Stable Diffusion 的扩散过程是在潜空间中发展的,而不是整个图像像素,这样的压缩过程减速了图像生成的速度。

该压缩过程通过自编码器(autoencoder)实现。自编码器的编码器把图像压缩至潜空间,并用解码器依据压缩信息重建图像。因而,在前向扩散过程中,等级乐音利用于潜变量,而不是图像像素。所以 U-Net(乐音预测器)预测的乐音也是以潜变量的模式示意的。

前向扩散过程就是给清晰图像一直增加乐音的过程,也是生成数据集训练乐音预测器的过程,当乐音预测器训练结束后,就能够运行反向抽样过程来去噪并重建图像

在 Stable Diffusion、LDM(潜变量扩散模型) 的论文中,该流程如下:

4.4 Transformer(文本编码器)

Transformer 模型依据文本输出生成 token embedding。

Stable Diffusion 的开源模型中应用的是 OpenAI 的 CLIP(基于 GPT),而其论文中应用的是 Google 的 BERT。两者都是 Transformer 的编码器(encoder)。

有工作指出:文本编码器的抉择对于扩散模型的体现比图像生成器的抉择更重要。

4.4.1 CLIP 的训练过程

CLIP 的训练流程为:

  • 输出:训练数据为网页爬取的图像和其对应 HTML 标签属性 alt,也就是图像 + 正文(caption)
  • 训练:CLIP 别离应用图像编码器和文本编码器把两种输出数据转化为图像 embedding 和文本 embedding,应用余弦类似度作为 loss 和标签 embeddings 进行比拟并更新参数
  • 输入:训练结束的 CLIP 接管图像和文本形容并生成对应的 embeddings

4.5 退出文本数据

有了文本编码器后就要给扩散模型退出文本数据。

上面是有、无文本的扩散过程比照:

退出文本数据后,乐音预测器(U-Net)也要产生相应变动,次要是在每个 ResNet 块后增加注意力运算:

参考

  • Ling Yang et al. “Diffusion Models: A Comprehensive Survey of Methods and Applications .” arXiv 2023.
  • Jonathan Ho et al. "Denoising Diffusion Probabilistic Models". NeurIPS 2020.
  • Jiaming Song et al. "Denoising Diffusion Implicit Models". ICLR 2021.
  • Alex Nichol et al. "Improved Denoising Diffusion Probabilistic Models". ICML 2021.
  • Robin Rombach et al. "High-Resolution Image Synthesis with Latent Diffusion Models". arXiv 2022.
  • Prafulla Dhariwal et al. Diffusion "Models Beat GANs on Image Synthesis". NeurIPS 2021.
  • Jonathan Ho et al. "Classifier-Free Diffusion Guidance". NeurIPS Workshop 2021.
  • Tim Salimans et al. "Progressive Distillation for Fast Sampling of Diffusion Models". ICLR 2022.
  • Chenlin Meng et al. On Distillation of Guided Diffusion Models”. CVPR 2023.