共计 713 个字符,预计需要花费 2 分钟才能阅读完成。
出品人:Towhee 技术团队 王翔宇、顾梦佳扩散模型在图像生成畛域有着难以撼动的位置,而其通常都抉择了卷积 U-Net 作为骨干模型。那么在其余畛域大杀四方的 Transformers 在扩散模型中是否还有用武之地呢?基于这一想法,DiT(Diffusion Transformer)利用 transformer 构造摸索了一种新的扩散模型。它不仅继承了 Transformer 模型类的优良扩大个性,性能还优于先前应用 U -Net 的模型。钻研表明,扩散模型能够胜利地用 transformer 替换 U-Net 骨干。另外,它还证实了网络复杂性与样本品质之间存在很强的相关性。通过简略地扩大 DiT 并训练具备高容量骨干的潜在扩散模型,DiT 模型能够在类条件 256 × 256 ImageNet 生成基准上实现 FID 2.27 的最新后果。
The Diffusion Transformer (DiT) architecture.DiT 首先将空间示意输出通过第一层网络,将每个 patch 线性嵌入到输出中,以此将空间输出转换为一个数个 token 序列。而后,模型会将规范的基于 ViT 频率的地位嵌入利用于所有输出 token。接着,输出 token 由一系列 transformer 块解决。除了噪声图像输出之外,扩散模型有时还会解决额定的条件信息,例如噪声工夫步长、类标签、自然语言等。DiT 摸索了四种 transformer 块变体,别离以不同形式解决条件输出。相干材料:代码地址:https://github.com/facebookre… 论文链接:https://arxiv.org/abs/2212.09748 更多材料:https://zhuanlan.zhihu.com/p/…