关于机器学习:扩散模型-DDPM-优化

1次阅读

共计 3332 个字符,预计需要花费 9 分钟才能阅读完成。

3 DDPM 的优化

3.1 参数优化

3.1.1 优化 βt

在 “Improved Denoising Diffusion Probabilistic Models”. 一文中,作者提出了多种优化 DDPM 的技巧。其中一种就是把 βt 的 线性机制 改为 余弦机制。 机制(schedule)函数的实现绝对灵便,只有保障在训练的两头过程提供近似 - 线性的降落并且在 t = 0 和 t = T 左近的变动不大即可。

文中给出的余弦机制为:

线性机制和余弦机制的比照:

3.1.2 优化 Σθ

同样在 “Improved Denoising Diffusion Probabilistic Models”. 一文中。作者提出把 Σθ 设置为可学习参数,作为 βt 和 βt-hat 之间的插值。

因为在 DDPM(”Denoising Diffusion Probabilistic Models”)原文中,Σθ 不是可学习的参数,所以损失函数中并不蕴含该项。因而,作者提出把损失函数由 Lsimple 改为 Lhybrid = Lsimple + λLvlb,其中 λ = 0.001 来阻止 Lvlb 项中的 μθ 的梯度,因而 Lvlb 仅仅由 Σθ 的学习来疏导。

3.2 抽样速度优化

3.2.1 DDIM

因为马尔可夫过程依赖于前一个状态的条件概率,因而 DDPM 的抽样速度很慢。在 DDIM(”Denoising Diffusion Implicit Models”)一文中,作者指出:“对 DDPM 来说,须要破费 20 小时 来采样 50k 张 32 * 32 大小的图片;然而对于 GAN 来说,只须要不到 1 分钟”。

其中一种优化形式来自 “Improved Denoising Diffusion Probabilistic Models”. 通过把抽样的步长更新为 [T/S] 使得抽样的步骤从 T 步变为 S 步。因而,新过程的抽样的样本为 {τ1, …, τs},S < T。

另一种优化形式来自 “Denoising Diffusion Implicit Models”。通过重参数化技巧,能够重写 qσ(Xt-1|Xt,X0) 过程为:

又因为,因而,

令,能够把 η 作为超参数来管制抽样过程的随机水平。非凡状况为:

  • η = 1,抽样过程 随机,模型为 DDPM(去噪扩散概率模型)
  • η = 0,抽样过程 确定,模型为 DDIM(去噪扩散隐模型)

DDIM 有着和 DDPM 雷同的边际乐音散布,然而能够确定性地把乐音映射回原始数据样本。

在生成过程中,DDIM 从扩散过程的 S 步骤的子集进行抽样并推断。作者发现:当 S 很小时,应用 DDIM 能产出最好的图像品质,而 DDPM 则体现很差。也就是说:DDIM 能够应用比 DDPM 更少的抽样步骤,生成更好品质的图像。

与 DDPM 相比,DDIM 可能:

  1. 用更少的步骤生成高质量图像。
  2. 因为生成过程是确定的,所以 DDIM 有连续性。意思是:在同一个潜变量上进行条件抽样的样本,应该具备相似的高维度特色。
  3. 因为连续性,DDIM 可能从潜变量中得的有意义的语义插值。

3.2.2 LDM

“High-Resolution Image Synthesis with Latent Diffusion Models” 一文提出了 Stable Diffusion 潜扩散模型(Latent Diffusion Model / LDM)。LDM 通过在潜空间中运行扩散过程(DDPM 则是在图像像素空间中)缩小了训练老本,放慢了推断速度。该文的启发来自察看:“在压缩图像后,其语义和概念组成仍然极大保留了下来,而且大部分比特奉献了图像的细节”。LDM 通过生成建模学习松散地合成感知压缩和语义压缩,办法是首先应用自编码器去除像素级冗余,而后通过扩散过程对学习到的潜数据进行操作 / 生成语义概念。

感知压缩过程依赖于自编码器。自编码器的编码器首先把图像输出压缩为 2D 的潜向量,解码器随后依据该 2D 潜向量重建图像。上述文章还摸索了两种正则化办法以防止潜空间中的任意高方差。

LDM 的构造如下,扩散和生成过程都在潜空间中进行。应用的自编码器是工夫条件的 U-Net,并且利用例如:语义信息、文本、图像等来履行条件管制,这相似于多模态学习。为了解决文本信息,在 U-Net 中的残差块之间还退出了 Cross-Attention 跨注意力模块

3.3 条件生成

3.3.1 分类器疏导

ImageNet 等数据集中不仅蕴含大量的图片,而且有 配对的标签。 为了让扩散模型在这样的数据集上训练,须要联合标签信息。

Diffusion “Models Beat GANs on Image Synthesis”. 一文通过在乐音图片中训练一个分类器来疏导抽样过程朝着指标标签挪动。因为 score function 为:

所以分类器能够示意为:

作者对 U-Net 构造也进行了一些批改,包含:网络扩大、注意力扩大等。最终在图像生成工作上应用扩散模型战胜了 GAN。

3.3.2 无分类器疏导

“Classifier-Free Diffusion Guidance” 一文提出了无分类器疏导办法。不应用分类器,能够通过联合有条件的 score 函数和无条件的扩散模型来运行扩散步骤。

办法是把无条件的去噪扩散模型通过 score 预测器重参数化,并把有条件的扩散模也重参数化。这两个模型能够通过一个网络学习。该网络应用带标签的配对数据来训练有条件的模型,并在训练过程中周期性随机抛弃一些条件信息来训练无条件模型。

文章的结果表明,无分类器疏导的扩散模型可能获得 FID(分辨原始图片和生成图片)以及 IS(品质和多样性)之间的均衡。

3.4 渐进蒸馏

“Progressive Distillation for Fast Sampling of Diffusion Models” 一文提出了 “渐进蒸馏” 来减速扩散模型的抽样过程,办法如下图:

渐进蒸馏的概念来源于 常识蒸馏。 首先初始化两个模型:老师模型和学生模型 ,两个模型完全相同(网络结构、参数等)。渐进蒸馏的做法是: 老师模型 仍然依照 惯例 的形式实现抽样过程,学生 模型则把老师模型所需的 步骤减半 ,用 一步 过程来预测老师模型的 两步后果 。在一轮蒸馏完结后, 学生模型复制成为新的老师模型。反复以上步骤。

上述办法的奇怪之处在于:为什么不能够间接应用学生模型来预测两步后果,或者老师模型的作用是什么?

答案是:因为扩散模型的抽样过程具备肯定的随机性,所以如果抽样过程的步长过大,那么在某个时刻应该生成的图片其实有多种可能,然而只有其中一种是正确的。例如:在某个时刻 t,确定的是图像中应该蕴含 3 个乐音块,那么该时刻的生成图像至多有下述可能:

  • 乐音块均匀分布
  • 乐音块集中散布在某个地位

    • 图片边缘
    • 图片地方

老师模型存在的意义就是疏导学生模型做出正确的判断。

作者团队对多个学生模型的 步长 进行了钻研,发现 减半 是成果 最优 的。

参考

  • Ling Yang et al.“Diffusion Models: A Comprehensive Survey of Methods and Applications .”arXiv 2023.
  • Jonathan Ho et al. “Denoising Diffusion Probabilistic Models”. NeurIPS 2020.
  • Jiaming Song et al. “Denoising Diffusion Implicit Models”. ICLR 2021.
  • Alex Nichol et al. “Improved Denoising Diffusion Probabilistic Models”. ICML 2021.
  • Robin Rombach et al. “High-Resolution Image Synthesis with Latent Diffusion Models”. arXiv 2022.
  • Prafulla Dhariwal et al. Diffusion “Models Beat GANs on Image Synthesis”. NeurIPS 2021.
  • Jonathan Ho et al. “Classifier-Free Diffusion Guidance”. NeurIPS Workshop 2021.
  • Tim Salimans et al. “Progressive Distillation for Fast Sampling of Diffusion Models”. ICLR 2022.
  • Chenlin Meng et al. On Distillation of Guided Diffusion Models”. CVPR 2023.
正文完
 0