关于人工智能:扩散模型-Stable-Diffusion

4 Stable Diffusion

Stable Diffusion 是由 Stability AI 开发的开源扩散模型。Stable Diffusion 能够实现多模态工作，包含：文字生成图像（text2img）、图像生成图像（img2img）等。

Stable Diffusion 由两局部组成：

Stable Diffusion Pipeline：

Clip：文本信息编码
- 输出：文本
- 输入：77 token 的 embedding 向量，每个蕴含 768 维
U-Net + Noise Scheduler：逐步把信息扩散至潜空间中
- 输出：文本 embedding 和由乐音组成的多维 tensor
- 输入：解决后的 tensor
自编码器的解码器：应用扩散/解决后的信息生成图像
- 输出：通过解决的 tensor(shape: (4, 64, 64))
- 输入：生成图像（shape:(3, 512, 512))

扩散过程产生在图像信息创立器中。该过程一步步（step by step）进行。初始的输出为文本 embedding 和一个随机的图像信息数组（也称为潜变量 latents）。每一步扩散的输出是潜变量，输入是信息进一步丰盛的潜变量。最终的输入是一张图像。如图：

扩散过程的原理其实是训练了一个基于 U-Net 和乐音等级机制（schedule）的乐音等级预测器。

扩散过程蕴含如下阶段：

数据集筹备阶段：生成训练数据
- 输出：蕴含清晰图像的数据集、不同级别的乐音等级机制
- 流程：从数据集中抽样失去清晰图像，从乐音等级机制中抽样失去某种级别的乐音样本，把该乐音和图像交融
- 输入：带有某种等级的乐音图像
训练阶段：训练乐音等级预测器
- 输出：把上一阶段中的乐音图像和清晰图像作为输出数据，对应的乐音样本作为标签。
- 训练：采纳 U-Net 作为神经网络，采纳监督 loss 对输出进行学习
- 输入：某种等级的乐音样本
推断阶段：去噪并生成图像
- 输出：训练实现的 U-Net、某个乐音图像
- 推断：U-Net 输入该乐音图像的乐音等级（乐音样本）
- 输入：把乐音图像减去乐音样本，失去去噪图像。一直反复该过程，最终失去相似清晰图像的图像（并不一定完全相同）

生成图像的后果依赖于训练数据集。例如：Stable Diffusion 采纳了带有艺术成果的 LAION Aesthetics 数据集，因而生成图像也具备艺术成果。

Stable Diffusion 的扩散过程是在潜空间中发展的，而不是整个图像像素，这样的压缩过程减速了图像生成的速度。

该压缩过程通过自编码器（autoencoder）实现。自编码器的编码器把图像压缩至潜空间，并用解码器依据压缩信息重建图像。因而，在前向扩散过程中，等级乐音利用于潜变量，而不是图像像素。所以 U-Net（乐音预测器）预测的乐音也是以潜变量的模式示意的。

前向扩散过程就是给清晰图像一直增加乐音的过程，也是生成数据集训练乐音预测器的过程，当乐音预测器训练结束后，就能够运行反向抽样过程来去噪并重建图像。

在 Stable Diffusion、LDM（潜变量扩散模型）的论文中，该流程如下：

Transformer 模型依据文本输出生成 token embedding。

Stable Diffusion 的开源模型中应用的是 OpenAI 的 CLIP（基于 GPT），而其论文中应用的是 Google 的 BERT。两者都是 Transformer 的编码器（encoder）。

有工作指出：文本编码器的抉择对于扩散模型的体现比图像生成器的抉择更重要。

CLIP 的训练流程为：

输出：训练数据为网页爬取的图像和其对应 HTML 标签属性 alt，也就是图像 + 正文（caption）
训练：CLIP 别离应用图像编码器和文本编码器把两种输出数据转化为图像 embedding 和文本 embedding，应用余弦类似度作为 loss 和标签 embeddings 进行比拟并更新参数
输入：训练结束的 CLIP 接管图像和文本形容并生成对应的 embeddings

有了文本编码器后就要给扩散模型退出文本数据。

上面是有、无文本的扩散过程比照：

退出文本数据后，乐音预测器（U-Net）也要产生相应变动，次要是在每个 ResNet 块后增加注意力运算：

Ling Yang et al. “Diffusion Models: A Comprehensive Survey of Methods and Applications .” arXiv 2023.
Jonathan Ho et al. "Denoising Diffusion Probabilistic Models". NeurIPS 2020.
Jiaming Song et al. "Denoising Diffusion Implicit Models". ICLR 2021.
Alex Nichol et al. "Improved Denoising Diffusion Probabilistic Models". ICML 2021.
Robin Rombach et al. "High-Resolution Image Synthesis with Latent Diffusion Models". arXiv 2022.
Prafulla Dhariwal et al. Diffusion "Models Beat GANs on Image Synthesis". NeurIPS 2021.
Jonathan Ho et al. "Classifier-Free Diffusion Guidance". NeurIPS Workshop 2021.
Tim Salimans et al. "Progressive Distillation for Fast Sampling of Diffusion Models". ICLR 2022.
Chenlin Meng et al. On Distillation of Guided Diffusion Models”. CVPR 2023.