关于机器学习:DiTTransformers-与扩散模型强强联手

49次阅读

共计 713 个字符，预计需要花费 2 分钟才能阅读完成。

出品人：Towhee 技术团队王翔宇、顾梦佳扩散模型在图像生成畛域有着难以撼动的位置，而其通常都抉择了卷积 U-Net 作为骨干模型。那么在其余畛域大杀四方的 Transformers 在扩散模型中是否还有用武之地呢？基于这一想法，DiT（Diffusion Transformer）利用 transformer 构造摸索了一种新的扩散模型。它不仅继承了 Transformer 模型类的优良扩大个性，性能还优于先前应用 U -Net 的模型。钻研表明，扩散模型能够胜利地用 transformer 替换 U-Net 骨干。另外，它还证实了网络复杂性与样本品质之间存在很强的相关性。通过简略地扩大 DiT 并训练具备高容量骨干的潜在扩散模型，DiT 模型能够在类条件 256 × 256 ImageNet 生成基准上实现 FID 2.27 的最新后果。

The Diffusion Transformer (DiT) architecture.DiT 首先将空间示意输出通过第一层网络，将每个 patch 线性嵌入到输出中，以此将空间输出转换为一个数个 token 序列。而后，模型会将规范的基于 ViT 频率的地位嵌入利用于所有输出 token。接着，输出 token 由一系列 transformer 块解决。除了噪声图像输出之外，扩散模型有时还会解决额定的条件信息，例如噪声工夫步长、类标签、自然语言等。DiT 摸索了四种 transformer 块变体，别离以不同形式解决条件输出。相干材料：代码地址：https://github.com/facebookre… 论文链接：https://arxiv.org/abs/2212.09748 更多材料：https://zhuanlan.zhihu.com/p/…

正文完