关于机器学习:论文推荐谷歌Masked-Generative-Transformers-以更高的效率实现文本到图像的-SOTA

32次阅读

共计 1218 个字符，预计需要花费 4 分钟才能阅读完成。

基于文本提醒的生成图像模型近年来获得了惊人的停顿，这得益于新型的深度学习架构、先进的训练范式 (如掩码建模)、大量图像 - 文本配对训练数据的日益可用，以及新的扩散和基于掩码的模型的倒退。

在 23 年 1 月新公布的论文 Muse 中：Masked Generative Transformers 生成文本到图像利用掩码图像建模办法来达到了最先进的性能，零样本 COCO 评估的 FID 分数为 7.88，CLIP 分数为 0.32——同时显著快于扩散或传统自回归模型。

google 团队总结了它们的次要奉献如下：

提出了一个最先进的文本到图像生成模型，该模型取得了杰出的 FID 和 CLIP 分数（图像生成品质、多样性和与文本提醒对齐的定量测量）。
因为应用了量化图像标记和并行解码，模型显著快于同类模型。
架构反对开箱即用的零样本编辑性能，包含 inpainting, outpainting 和 free mask 编辑。

Muse 构建在谷歌的 T5 之上，T5 是一个大型语言模型，它承受各种文本到文本工作的训练，可通过掩码 transformer 架构生成高质量图像。Muse 从 T5 嵌入中继承了无关对象、动作、视觉属性、空间关系等的丰盛信息；并学习将这些丰盛的概念与生成的图像相匹配。

Muse 一共蕴含八个外围组件，例如它的语义标记化，它应用 VQGAN 模型的编码器和解码器对来自不同分辨率的图像进行编码，并输入离散的标记，这些标记捕捉图像的更高级别语义，而不受低级别噪声的影响。

超分辨率模型将较低分辨率的潜在映射转换为更高分辨率的潜在映射，并通过更高分辨率的 VQGAN 解码生成最终的高分辨率图像。钻研人员还在放弃编码器的容量固定的前提下向 VQGAN 解码器增加额定的残差层和通道，而后微调这些新层，同时放弃 VQGAN 编码器的权重等固定。因为视觉标记“语言”放弃不变，因而能够在不从新训练任何其余模型组件的状况下能够改善生成图像的细节和视觉品质。

为了改良 Muse 的文本图像对齐，还应用了一种无分类器领导 (classifier-free guidance) 的办法，该办法线性减少疏导尺度，在低疏导或无疏导的状况下对晚期标记进行采样，对前面的标记逐步减少条件提醒的影响。还采纳并行解码来缩小推理工夫。

在他们的实证钻研中，Muse 与各种文本到图像生成工作的风行基准模型进行了比拟。Muse 900M 参数模型在 CC3M 数据集上实现了新的 SOTA, FID 评分为 6.06(越低越好)，而 Muse 3B 参数模型在零样本 COCO 取得了 7.88 的 FID 评分，CLIP 分数为 0.32。

Muse 展现了令人印象粗浅的无需微调的零样本编辑性能，进一步证实了解冻的大型预训练语言模型作为文本到图像生成的弱小而高效的文本编码器的后劲。

这是一篇十分值得举荐的论文，并且 google 还为他制作了专门的网站：

https://avoid.overfit.cn/post/55897da82dd241f394372fc76260320d

作者：Synced

正文完