论文提出了一种基于卷积和VIT的混合网络,利用Transformers捕捉近程依赖关系,利用cnn提取部分信息。构建了一系列模型cmt,它在准确性和效率方面有更好的衡量。
CMT:体系结构
CMT块由一个部分感知单元(LPU)、一个轻量级多头自留神模块(LMHSA)和一个反向残差前馈网络(IRFFN)组成。
1、部分感知单元(LPU)
在以前的transformer中应用的相对地位编码是为了利用标记的程序而设计的,它毁坏了平移不变性。
为了缓解局限性,LPU应用卷积(MobileNetV1)提取部分信息,其定义为:
2、轻量级多头自我留神(LMHSA)
在原注意力模块中,自注意力模块为:
为了缩小计算开销,在注意力操作之前,应用k × k步长为k的深度卷积(MobileNetV1)来减小k和V的空间大小。在每个自注意力模块中增加一个绝对地位偏差B(相似于Shaw NAACL ' 18):
这里的h个是与ViT相似的注意力头。
3、反向残差前馈网络(IRFFN)
原始FFN应用两个线性层,两头是GELU:
IRFFN由扩大层(MobileNetV1)和卷积(投影层)组成。为了更好的性能,还批改了残差连贯的地位:
应用深度卷积(MobileNetV1)提取部分信息,而额定的计算成本能够忽略不计。
4、CMT块
有了上述三个组成部分,CMT块能够表述为:
上式中,Yi和Zi别离示意LPU和LMHSA模块对第i块的输入特色。LN表示层归一化。
CMT变体
1、模型的复杂性
Transformer 的计算复杂度(FLOPs)可计算为:
式中,r为FFN的开展比,dk和dv别离为key和value的维度。ViT设d = dk = dv, r = 4,则计算可简化为:
CMT块的FLOPs:
其中k≥1为LMHSA的还原比。
能够看到,与规范Transformer块相比,CMT块对计算成本更敌对,并且在更高分辨率(较大n)下更容易解决特色映射。
2、扩大策略
受EfficientNet的启发,应用复合系数来平均缩放层数(深度)、维度和输出分辨率:
减少了·^(1.5) ·²≈2.5的束缚,因而对于给定的新,总FLOPS将大概减少2.5^ 。依据测试,默认为=1.2, =1.3, =1.15。
3、CMT变体
在CMT-S的根底上,依据提出的缩放策略构建了CMT-Ti、CMT-XS和CMT-B。四种模型的输出分辨率别离为160、192、224和256。
后果
1、融化钻研
ViT/DeiT只能生成单尺度的特色图,失落了大量的多尺度信息,然而这部分信息对密集预测至关重要。
DeiT与CMT-S一样具备4级stage,即DeiT- s - 4stage,能够实现改良。
所有的增量改良都表明,stem、LPU和IRFFN对性能的进步也有重要的奉献。CMT在LMHSA和IRFFN之前应用LN,在卷积层之后插入BN。如果将所有的LN都替换为BN,则模型在训练过程中无奈收敛。
2、ImageNet
CMTS以4.0B FLOPs达到83.5%的top-1精度,比基线模型DeiT-S高3.7%,比CPVT高2.0%,表明CMT块在捕捉部分和全局信息方面的劣势。
值得注意的是,之前所有基于transformer的模型依然不如通过彻底的架构搜寻取得的EfficientNet,然而CMT-S比EfficientNet- b4高0.6%,计算成本更低,这也证实了所提出的混合结构的有效性。
3、上游工作
对于以RetinaNet为根本框架的指标检测,CMT-S优于twin - pcpvt - s (mAP为1.3%)和twin - svt - s (mAP为2.0%)。
以Mask R-CNN为根本框架的宰割,CMT-S以1.7%的AP超过了Twins-PCPVTS,以1.9%的AP超过了Twins-SVT-S。
CMT- s在所有数据集中以更少的FLOPs优于其余基于transformer的模型,并在FLOPs缩小9倍的状况下与EfficientNet-B7达到相当的性能,这证实了CMT架构的优越性。
论文地址:
https://avoid.overfit.cn/post/2da9f18b7b6d4da89b44eb16c861ab88