关于深度学习:CMT卷积与Transformers的高效结合

47次阅读

共计 1715 个字符,预计需要花费 5 分钟才能阅读完成。

论文提出了一种基于卷积和 VIT 的混合网络,利用 Transformers 捕捉近程依赖关系,利用 cnn 提取部分信息。构建了一系列模型 cmt,它在准确性和效率方面有更好的衡量。

CMT: 体系结构

CMT 块由一个部分感知单元 (LPU)、一个轻量级多头自留神模块(LMHSA) 和一个反向残差前馈网络 (IRFFN) 组成。

1、部分感知单元(LPU)

在以前的 transformer 中应用的相对地位编码是为了利用标记的程序而设计的,它毁坏了平移不变性。

为了缓解局限性,LPU 应用卷积 (MobileNetV1) 提取部分信息,其定义为:

2、轻量级多头自我留神(LMHSA)

在原注意力模块中,自注意力模块为:

为了缩小计算开销,在注意力操作之前,应用 k × k 步长为 k 的深度卷积 (MobileNetV1) 来减小 k 和 V 的空间大小。在每个自注意力模块中增加一个绝对地位偏差 B(相似于 Shaw NAACL ‘ 18):

这里的 h 个是与 ViT 相似的注意力头。

3、反向残差前馈网络(IRFFN)

原始 FFN 应用两个线性层,两头是 GELU:

IRFFN 由扩大层 (MobileNetV1) 和卷积 (投影层) 组成。为了更好的性能,还批改了残差连贯的地位:

应用深度卷积 (MobileNetV1) 提取部分信息,而额定的计算成本能够忽略不计。

4、CMT 块

有了上述三个组成部分,CMT 块能够表述为:

上式中,Yi 和 Zi 别离示意 LPU 和 LMHSA 模块对第 i 块的输入特色。LN 表示层归一化。

CMT 变体

1、模型的复杂性

Transformer 的计算复杂度 (FLOPs) 可计算为:

式中,r 为 FFN 的开展比,dk 和 dv 别离为 key 和 value 的维度。ViT 设 d = dk = dv, r = 4,则计算可简化为:

CMT 块的 FLOPs:

其中 k≥1 为 LMHSA 的还原比。

能够看到,与规范 Transformer 块相比,CMT 块对计算成本更敌对,并且在更高分辨率 (较大 n) 下更容易解决特色映射。

2、扩大策略

受 EfficientNet 的启发,应用复合系数 φ 来平均缩放层数(深度)、维度和输出分辨率:

减少了 α·β^(1.5) ·γ²≈2.5 的束缚,因而对于给定的新 φ,总 FLOPS 将大概减少 2.5^ φ。依据测试,默认为 α =1.2,β=1.3,γ=1.15。

3、CMT 变体

在 CMT- S 的根底上,依据提出的缩放策略构建了 CMT-Ti、CMT-XS 和 CMT-B。四种模型的输出分辨率别离为 160、192、224 和 256。

后果

1、融化钻研

ViT/DeiT 只能生成单尺度的特色图,失落了大量的多尺度信息,然而这部分信息对密集预测至关重要。

DeiT 与 CMT- S 一样具备 4 级 stage,即 DeiT- s – 4stage,能够实现改良。

所有的增量改良都表明,stem、LPU 和 IRFFN 对性能的进步也有重要的奉献。CMT 在 LMHSA 和 IRFFN 之前应用 LN,在卷积层之后插入 BN。如果将所有的 LN 都替换为 BN,则模型在训练过程中无奈收敛。

2、ImageNet

CMTS 以 4.0B FLOPs 达到 83.5% 的 top- 1 精度,比基线模型 DeiT- S 高 3.7%,比 CPVT 高 2.0%,表明 CMT 块在捕捉部分和全局信息方面的劣势。

值得注意的是,之前所有基于 transformer 的模型依然不如通过彻底的架构搜寻取得的 EfficientNet,然而 CMT- S 比 EfficientNet- b4 高 0.6%,计算成本更低,这也证实了所提出的混合结构的有效性。

3、上游工作

对于以 RetinaNet 为根本框架的指标检测,CMT- S 优于 twin – pcpvt – s (mAP 为 1.3%)和 twin – svt – s (mAP 为 2.0%)。

以 Mask R-CNN 为根本框架的宰割,CMT- S 以 1.7% 的 AP 超过了 Twins-PCPVTS,以 1.9% 的 AP 超过了 Twins-SVT-S。

CMT- s 在所有数据集中以更少的 FLOPs 优于其余基于 transformer 的模型,并在 FLOPs 缩小 9 倍的状况下与 EfficientNet-B7 达到相当的性能,这证实了 CMT 架构的优越性。

论文地址:

https://avoid.overfit.cn/post/2da9f18b7b6d4da89b44eb16c861ab88

正文完
 0