共计 2020 个字符,预计需要花费 6 分钟才能阅读完成。
VIT 在演绎偏置方面存在空间相关性和信道示意的多样性两大缺点。所以论文提出了动静混合视觉变压器 (DHVT) 来加强这两种感应偏差。
在空间方面,采纳混合结构,将卷积集成到补丁嵌入和多层感知器模块中,迫使模型捕捉令牌特色及其相邻特色。
在信道方面,引入了 MLP 中的动静特色聚合模块和多头注意力模块中全新的“head token”设计,帮忙从新校准信道示意,并使不同的信道组示意互相交互。
Dynamic Hybrid Vision Transformer (DHVT)
1、程序重叠补丁嵌入 (Sequential Overlapping Patch Embedding)
改良后的补丁嵌入称为 Sequential overlap patch embedding(SOPE),它蕴含了 3×3 步长 s = 2 的卷积、BN 和 GELU 激活的几个间断卷积层。卷积层数与 patch 大小的关系为 P =2^k。SOPE 可能打消以前嵌入模块带来的不连续性,保留重要的底层特色。它能在肯定水平上提供地位信息。
在一系列卷积层前后别离采纳两次仿射变换。该操作对输出特色进行了缩放和移位,其作用相似于归一化,使训练性能在小数据集上更加稳固。
SOPE 的整个流程能够表述如下。
这里的 α 和 β 为可学习参数,别离初始化为 1 和 0。
2、编码器整体架构
而后将特色映射重塑为补丁并与 cls 令牌连贯,并发到编码器层。每个编码器蕴含层归一化、多头自注意力和前馈网络。将 MHSA 网络改良为头部交互多头自留神网络(HI-MHSA),将前馈网络改良为动静聚合前馈网络(DAFF)。在最初的编码器层之后,输入类标记将被馈送到线性头部进行最终预测。
3、动静聚合前馈 (Dynamic Aggregation Feed Forward)
ViT 中的一般前馈网络 (FFN) 由两个全连贯层和 GELU 组成。DAFF 在 FFN 中集成了来自 MobileNetV1 的深度卷积 (DWCONV)。因为深度卷积带来的演绎偏差,模型被迫捕捉相邻特色,解决了空间视图上的问题。它极大地缩小了在小型数据集上从头开始训练时的性能差距,并且比规范 CNN 收敛得更快。还应用了与来自 SENet 的 SE 模块相似的机制。
Xc、Xp 别离示意类标记和补丁标记。类标记在投影层之前从序列中拆散为 Xc。残余的令牌 Xp 则通过一个外部有残差连贯的深度集成多层感知器。
而后将输入的补丁标记均匀为权重向量 W。在 squeeze-excitation 操作之后,输入权重向量将与类标记通道相乘。而后从新校准的类令牌将与输入补丁令牌以复原令牌序列。
4、相互作用多头自留神(HI-MHSA)
在最后的 MHSA 模块中,每个留神头都没有与其余头交互。在不足训练数据的状况下,每个通道组的表征都太弱而无奈辨认。
在 HI-MHSA 中,每个 d 维令牌,包含类令牌,将被重塑为 h 局部。每个局部蕴含 d 个通道,其中 d =d×h。所有拆散的标记在它们各自的局部中取平均值。因而总共失去 h 个令牌,每个令牌都是 d 维的。所有这样的两头令牌将再次投影到 d 维,总共产生 h 个头部令牌。最初,将它们与补丁令牌和类令牌连接起来。
5、模型变体
DHVT-T: 12 层编码器,嵌入维度为 192,MLP 比为 4,CIFAR-100 和 DomainNet 上的留神头为 4,ImageNet-1K 上的留神头为 3。DHVT-S: 12 层编码器,嵌入维度为 384,MLP 比 4,CIFAR-100 上留神头为 8,DomainNet 和 ImageNet-1K 上留神头为 6。
须要阐明的是:论文和模型的重点是在小数据集上从零开始训练。
后果展现
1、DomainNet & ImageNet-1K
在 DomainNet 上,DHVT 体现出比规范 ResNet-50 更好的后果。在 ImageNet-1K 上,DHVT- T 的准确率达到 76.47,DHVT- S 的准确率达到 82.3。论文说这是在 VIT 的最佳性能。
2、CIFAR-100
DHVT- T 在 5.8M 参数下达到 83.54。DHVT- S 仅用 2280 万个参数即可达到 85.68。与其余基于 vit 的模型和 CNN(ResNeXt, SENet, SKNet, DenseNet 和 Res2Net)相比,所提出的模型参数更少,性能更高。
3、融化钻研
DeiT-T 4 头,从头开始训练 300 次,基线问题 67.59。当移除相对地位嵌入时,性能急剧下降至 58.72。当采纳 SOPE 并勾销相对地位嵌入时,性能降落幅度并不大。
同时采纳 SOPE 和 DAFF 时,能够对地位信息进行全面编码,SOPE 也有助于解决这里的不重叠问题,在晚期保留了细粒度的底层特色。
table6 发现了跨不同模型构造的 head 令牌带来的稳定性能增益。
当采纳这三种批改时,取得了 +13.26 的精度增益,胜利地弥合了与 CNN 的性能差距。
4、可视化
不同的 head 令牌在不同的补丁上激活
https://avoid.overfit.cn/post/806ce15b180440d988de5f76e22a2aaf
作者:Sik-Ho Tsang