Vision Transformer和MLP-Mixer是深度学习畛域最新的两个体系结构。他们在各种视觉工作中都十分胜利。视觉Vision Transformer的性能略好于MLP-Mixers,但更简单。然而这两个模型十分类似,只有渺小的区别。本文中将对两个模型中的组件进行分割和比照,阐明了它们的次要区别,并比拟了它们的性能。
简介
Transformer自2016年引入以来,始终是自然语言解决(NLP)工作的重大突破。谷歌的BERT和Open AI的GPT体系结构曾经成为语言翻译、文本生成、文本摘要和问题答复等工作的最先进解决方案。
Transformer在视觉畛域的利用曾经产生了令人印象粗浅的后果。一个被称为ViT的模型可能在视觉分类中胜过经典的基于卷积的模型。呈现在被称为Swin Transformer的ViT变体曾经在各种计算机视觉工作中实现了最先进的性能,包含分类、检测和宰割。
除此以外一个名为MLP-Mixer的架构受到了宽泛关注。这类模型的简略性十分吸引人。与VIT一样,MLP-Mixer的变体也被利用于不同的计算机视觉工作,包含检测和宰割。在某些状况下,这些模型的性能与基于Transformer的模型相当。
ViT和MLP-Mixer的架构如下所示。这些体系结构十分类似,通常包含三个次要局部,a)补丁嵌入,b)通过重叠的Transformer编码器提取特色,c)分类头。
上图为VIT
MLP-Mixer
本文的次要指标是阐明MLP-Mixer和ViT实际上是一个模型类,只管它们在表面上看起来不同。
MLP-Mixer与VIT的关系
MLP-Mixer借鉴了VIT的一些设计思维。最显著的办法是将输出图像宰割为小块,并应用线性层将每个小块映射到嵌入向量。ViT和MLP-Mixer都不应用卷积,或者至多宣称不应用。其实线性嵌入实际上是卷积与步幅等于补丁大小和参数共享的补丁。
比照这两种架构,并表明它们的相似之处不仅仅是嵌入层:
- 两个模型中的嵌入层是雷同的,并且是应用具备单层的MLP实现的。
- 通道混合在两种模型中通过双层MLP以完全相同的形式实现。
- 这两个模型在通道和令牌混合局部以雷同的形式应用残差连贯。
- 两个模型都应用LayerNorm进行规范化。
- 这些模型之间的次要区别是它们实现令牌混合的形式。令牌混合在ViT中产生在多头自留神(MHSA)层,而在ViT中是通过两层MLP实现的。MHSA能够有多个头部。在极其状况下,它能够有一个大小为d(嵌入维数)的头,或者有d个大小为1的头。自我留神后的信息都是通过MLP传递的。实际上,MSHA层同时进行令牌混合和通道混合。如下图所示
- 在多层令牌和通道混合之后,模型将信息映射到类标签。在ViT中,应用两层MLP将一个额定的标记称为[cls]标记(维数为d)映射到类标签。在MLP- mixer中,这与应用MLP的形式雷同,但首先信息跨不同的补丁(均匀池化层)进行池化。
模型的次要区别在于标记混合是如何进行的。ViT应用自留神,而MLP- mixer应用MLP来做到这一点。还有两个差别仿佛不太重要:
ViT中的[CLS]令牌曾经蕴含来自其余补丁的摘要信息。像在MLP-Mixer(均匀池化层)中那样跨补丁池化信息仿佛并不太重要,然而这可能是须要再具体钻研的一点。
MLP-Mixer不应用地位编码。不同于NLP的程序或单词能够扭转句子的意思,重新排列图像补丁仿佛不会产生一个可行的场景也不会天然产生。因而它在视觉工作中可能并不重要!
ViT作者表明,蕴含地位信息的确进步了准确性(参见附录中的表8)。地位编码有助于保护地位信息,因为在整个网络的几层令牌和通道混合之后,地位信息将失落。乏味的是,在没有明确思考空间信息的状况下,MLP-Mixer依然体现得十分好,并且与ViT并驾齐驱。在MLP-Mixer中增加空间信息是否能够进步其精度,这也是一个很乏味的钻研。
下表显示了两个模型在四个基准上的比拟。ViT模型的性能略好于MLP-Mixer,但它有更多的参数。
2模型的影响和将来
咱们这里总结两个模型的雷同和不同,这样从全局看到一个对立的视角:
这两个模型的不同次要在于它们跨标记混合信息的形式(即,空间地位)。目前还不分明自留神在混合令牌方面比MLP有多少劣势。可能自注意力自身并没有什么特地的,它可能足以在某种程度上打乱和混合空间地位上的信息。钻研这个问题的一种办法是在cnn中应用MLP层来混合跨空间地位的信息。令牌混合和通道混合的概念在更高的档次上变得含糊,因为信息在网络的前期扩散在很多中央。
如果只将其中一个令牌映射到分类层,就像在ViT中所做的那样,MLP-Mixer是否依然执行良好呢,这个也是能够进行试验。此外在MLP-Mixer中减少空间编码是否能进步精度还是一个悬而未决的问题。
所有现有的架构(如cnn、VIT、MLP-Mixer)仿佛在优化后都能很好地执行视觉工作。这不禁让人好奇,构建一个高效的视觉零碎所需的根本构件是什么?。有些模型比其余模型好,次要是因为它们利用了更好、更智能的架构组件,还是因为钻研人员花了更多的工夫优化它们?辨别以后架构的最佳办法是什么?现有的模型是如何关联的,它们如何互相帮助?现有模型的次要毛病和长处是什么?这些体系结构有多强壮?到目前为止,咱们的直觉和论断大多基于实证后果,然而该畛域不足强有力的实践洞见。例如很长一段时间以来,咱们认为卷积和池化可能是最终视觉零碎的根本构建模块,但VIT和MLP-Mixers挑战了这种信念。
援用
[1] Vaswani, Ashish, et al. “Attention is all you need.” Advances in neural information processing systems 30 (2017).
[2] Dosovitskiy, Alexey, et al. “An image is worth 16×16 words: Transformers for image recognition at scale.” arXiv preprint arXiv:2010.11929 (2020).
[3] Liu, Ze, et al. “Swin transformer: Hierarchical vision transformer using shifted windows.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021.
[4] Tolstikhin, Ilya O., et al. “Mlp-mixer: An all-mlp architecture for vision.” Advances in Neural Information Processing Systems 34 (2021): 24261–24272
https://avoid.overfit.cn/post/2416fcc61e2a48f4a0c288dfb30c81bf
发表回复