关于人工智能:Vision-Transformer和MLPMixer联系和对比

56次阅读

共计 2834 个字符，预计需要花费 8 分钟才能阅读完成。

Vision Transformer 和 MLP-Mixer 是深度学习畛域最新的两个体系结构。他们在各种视觉工作中都十分胜利。视觉 Vision Transformer 的性能略好于 MLP-Mixers，但更简单。然而这两个模型十分类似，只有渺小的区别。本文中将对两个模型中的组件进行分割和比照，阐明了它们的次要区别，并比拟了它们的性能。

Transformer 自 2016 年引入以来，始终是自然语言解决 (NLP) 工作的重大突破。谷歌的 BERT 和 Open AI 的 GPT 体系结构曾经成为语言翻译、文本生成、文本摘要和问题答复等工作的最先进解决方案。

Transformer 在视觉畛域的利用曾经产生了令人印象粗浅的后果。一个被称为 ViT 的模型可能在视觉分类中胜过经典的基于卷积的模型。呈现在被称为 Swin Transformer 的 ViT 变体曾经在各种计算机视觉工作中实现了最先进的性能，包含分类、检测和宰割。

除此以外一个名为 MLP-Mixer 的架构受到了宽泛关注。这类模型的简略性十分吸引人。与 VIT 一样，MLP-Mixer 的变体也被利用于不同的计算机视觉工作，包含检测和宰割。在某些状况下，这些模型的性能与基于 Transformer 的模型相当。

ViT 和 MLP-Mixer 的架构如下所示。这些体系结构十分类似，通常包含三个次要局部，a)补丁嵌入，b)通过重叠的 Transformer 编码器提取特色，c)分类头。

上图为 VIT

MLP-Mixer

本文的次要指标是阐明 MLP-Mixer 和 ViT 实际上是一个模型类，只管它们在表面上看起来不同。

MLP-Mixer 借鉴了 VIT 的一些设计思维。最显著的办法是将输出图像宰割为小块，并应用线性层将每个小块映射到嵌入向量。ViT 和 MLP-Mixer 都不应用卷积，或者至多宣称不应用。其实线性嵌入实际上是卷积与步幅等于补丁大小和参数共享的补丁。

比照这两种架构，并表明它们的相似之处不仅仅是嵌入层:

两个模型中的嵌入层是雷同的，并且是应用具备单层的 MLP 实现的。
通道混合在两种模型中通过双层 MLP 以完全相同的形式实现。
这两个模型在通道和令牌混合局部以雷同的形式应用残差连贯。
两个模型都应用 LayerNorm 进行规范化。
这些模型之间的次要区别是它们实现令牌混合的形式。令牌混合在 ViT 中产生在多头自留神 (MHSA) 层，而在 ViT 中是通过两层 MLP 实现的。MHSA 能够有多个头部。在极其状况下，它能够有一个大小为 d(嵌入维数)的头，或者有 d 个大小为 1 的头。自我留神后的信息都是通过 MLP 传递的。实际上，MSHA 层同时进行令牌混合和通道混合。如下图所示
在多层令牌和通道混合之后，模型将信息映射到类标签。在 ViT 中，应用两层 MLP 将一个额定的标记称为 [cls] 标记 (维数为 d) 映射到类标签。在 MLP- mixer 中，这与应用 MLP 的形式雷同，但首先信息跨不同的补丁 (均匀池化层) 进行池化。

模型的次要区别在于标记混合是如何进行的。ViT 应用自留神，而 MLP- mixer 应用 MLP 来做到这一点。还有两个差别仿佛不太重要:

ViT 中的 [CLS] 令牌曾经蕴含来自其余补丁的摘要信息。像在 MLP-Mixer(均匀池化层)中那样跨补丁池化信息仿佛并不太重要, 然而这可能是须要再具体钻研的一点。

MLP-Mixer 不应用地位编码。不同于 NLP 的程序或单词能够扭转句子的意思，重新排列图像补丁仿佛不会产生一个可行的场景也不会天然产生。因而它在视觉工作中可能并不重要!

ViT 作者表明，蕴含地位信息的确进步了准确性(参见附录中的表 8)。地位编码有助于保护地位信息，因为在整个网络的几层令牌和通道混合之后，地位信息将失落。乏味的是，在没有明确思考空间信息的状况下，MLP-Mixer 依然体现得十分好，并且与 ViT 并驾齐驱。在 MLP-Mixer 中增加空间信息是否能够进步其精度，这也是一个很乏味的钻研。

下表显示了两个模型在四个基准上的比拟。ViT 模型的性能略好于 MLP-Mixer，但它有更多的参数。

咱们这里总结两个模型的雷同和不同，这样从全局看到一个对立的视角：

这两个模型的不同次要在于它们跨标记混合信息的形式(即，空间地位)。目前还不分明自留神在混合令牌方面比 MLP 有多少劣势。可能自注意力自身并没有什么特地的，它可能足以在某种程度上打乱和混合空间地位上的信息。钻研这个问题的一种办法是在 cnn 中应用 MLP 层来混合跨空间地位的信息。令牌混合和通道混合的概念在更高的档次上变得含糊，因为信息在网络的前期扩散在很多中央。

如果只将其中一个令牌映射到分类层，就像在 ViT 中所做的那样，MLP-Mixer 是否依然执行良好呢，这个也是能够进行试验。此外在 MLP-Mixer 中减少空间编码是否能进步精度还是一个悬而未决的问题。

所有现有的架构 (如 cnn、VIT、MLP-Mixer) 仿佛在优化后都能很好地执行视觉工作。这不禁让人好奇，构建一个高效的视觉零碎所需的根本构件是什么？。有些模型比其余模型好，次要是因为它们利用了更好、更智能的架构组件，还是因为钻研人员花了更多的工夫优化它们? 辨别以后架构的最佳办法是什么? 现有的模型是如何关联的，它们如何互相帮助? 现有模型的次要毛病和长处是什么? 这些体系结构有多强壮? 到目前为止，咱们的直觉和论断大多基于实证后果，然而该畛域不足强有力的实践洞见。例如很长一段时间以来，咱们认为卷积和池化可能是最终视觉零碎的根本构建模块，但 VIT 和 MLP-Mixers 挑战了这种信念。

援用

[1] Vaswani, Ashish, et al.“Attention is all you need.”Advances in neural information processing systems 30 (2017).

[2] Dosovitskiy, Alexey, et al.“An image is worth 16×16 words: Transformers for image recognition at scale.”arXiv preprint arXiv:2010.11929 (2020).

[3] Liu, Ze, et al.“Swin transformer: Hierarchical vision transformer using shifted windows.”Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021.

[4] Tolstikhin, Ilya O., et al.“Mlp-mixer: An all-mlp architecture for vision.”Advances in Neural Information Processing Systems 34 (2021): 24261–24272

https://avoid.overfit.cn/post/2416fcc61e2a48f4a0c288dfb30c81bf

正文完