VIT在演绎偏置方面存在空间相关性和信道示意的多样性两大缺点。所以论文提出了动静混合视觉变压器(DHVT)来加强这两种感应偏差。
在空间方面,采纳混合结构,将卷积集成到补丁嵌入和多层感知器模块中,迫使模型捕捉令牌特色及其相邻特色。
在信道方面,引入了MLP中的动静特色聚合模块和多头注意力模块中全新的“head token”设计,帮忙从新校准信道示意,并使不同的信道组示意互相交互。
Dynamic Hybrid Vision Transformer (DHVT)
1、程序重叠补丁嵌入 (Sequential Overlapping Patch Embedding )
改良后的补丁嵌入称为Sequential overlap patch embedding(SOPE),它蕴含了3×3步长s=2的卷积、BN和GELU激活的几个间断卷积层。卷积层数与patch大小的关系为P=2^k。SOPE可能打消以前嵌入模块带来的不连续性,保留重要的底层特色。它能在肯定水平上提供地位信息。
在一系列卷积层前后别离采纳两次仿射变换。该操作对输出特色进行了缩放和移位,其作用相似于归一化,使训练性能在小数据集上更加稳固。
SOPE的整个流程能够表述如下。
这里的和为可学习参数,别离初始化为1和0。
2、编码器整体架构
而后将特色映射重塑为补丁并与cls令牌连贯,并发到编码器层。每个编码器蕴含层归一化、多头自注意力和前馈网络。将MHSA网络改良为头部交互多头自留神网络(HI-MHSA),将前馈网络改良为动静聚合前馈网络(DAFF)。在最初的编码器层之后,输入类标记将被馈送到线性头部进行最终预测。
3、动静聚合前馈 (Dynamic Aggregation Feed Forward )
ViT 中的一般前馈网络 (FFN) 由两个全连贯层和 GELU 组成。DAFF 在 FFN 中集成了来自 MobileNetV1 的深度卷积 (DWCONV)。因为深度卷积带来的演绎偏差,模型被迫捕捉相邻特色,解决了空间视图上的问题。它极大地缩小了在小型数据集上从头开始训练时的性能差距,并且比规范 CNN 收敛得更快。还应用了与来自 SENet 的 SE 模块相似的机制。
Xc、Xp 别离示意类标记和补丁标记。类标记在投影层之前从序列中拆散为 Xc。残余的令牌 Xp 则通过一个外部有残差连贯的深度集成多层感知器。
而后将输入的补丁标记均匀为权重向量 W。在squeeze-excitation操作之后,输入权重向量将与类标记通道相乘。而后从新校准的类令牌将与输入补丁令牌以复原令牌序列。
4、相互作用多头自留神(HI-MHSA)
在最后的MHSA模块中,每个留神头都没有与其余头交互。在不足训练数据的状况下,每个通道组的表征都太弱而无奈辨认。
在HI-MHSA中,每个d维令牌,包含类令牌,将被重塑为h局部。每个局部蕴含d个通道,其中d =d×h。所有拆散的标记在它们各自的局部中取平均值。因而总共失去h个令牌,每个令牌都是d维的。所有这样的两头令牌将再次投影到d维,总共产生h个头部令牌。最初,将它们与补丁令牌和类令牌连接起来。
5、模型变体
DHVT-T: 12层编码器,嵌入维度为192,MLP比为4,CIFAR-100和DomainNet上的留神头为4,ImageNet-1K上的留神头为3。DHVT-S: 12层编码器,嵌入维度为384,MLP比4,CIFAR-100上留神头为8,DomainNet和ImageNet-1K上留神头为6。
须要阐明的是:论文和模型的重点是在小数据集上从零开始训练。
后果展现
1、DomainNet & ImageNet-1K
在DomainNet上,DHVT体现出比规范ResNet-50更好的后果。在ImageNet-1K上,DHVT-T的准确率达到76.47,DHVT-S的准确率达到82.3。论文说这是在VIT的最佳性能。
2、CIFAR-100
DHVT-T在5.8M参数下达到83.54。DHVT-S仅用2280万个参数即可达到85.68。与其余基于vit的模型和CNN(ResNeXt, SENet, SKNet, DenseNet和Res2Net)相比,所提出的模型参数更少,性能更高。
3、融化钻研
DeiT-T 4头,从头开始训练300次,基线问题67.59。当移除相对地位嵌入时,性能急剧下降至58.72。当采纳SOPE并勾销相对地位嵌入时,性能降落幅度并不大。
同时采纳SOPE和DAFF时,能够对地位信息进行全面编码,SOPE也有助于解决这里的不重叠问题,在晚期保留了细粒度的底层特色。
table6发现了跨不同模型构造的head令牌带来的稳定性能增益。
当采纳这三种批改时,取得了+13.26的精度增益,胜利地弥合了与CNN的性能差距。
4、可视化
不同的head令牌在不同的补丁上激活
https://avoid.overfit.cn/post/806ce15b180440d988de5f76e22a2aaf
作者:Sik-Ho Tsang