论文提出引入多数超大卷积核层来无效地扩充无效感触域，拉近了CNN网络与ViT网络之间的差距，特地是上游工作中的性能。整篇论文论述非常具体，而且也优化了理论运行的体现，值得读一读、试一试

起源：晓飞的算法工程笔记公众号

论文: Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs

论文地址：https://arxiv.org/abs/2203.06717
论文代码：https://github.com/megvii-research/RepLKNet

Introduction

在图像分类、特色学习等前置工作(pretext task)以及指标检测、语义宰割等上游工作(downstream task)上，卷积网络的性能一直被ViTs（vision transformer）网络超过。人们普遍认为ViTs的性能次要得益于MHSA(multi-head self-attention)机制，并为此进行了很多钻研，从不同的角度比照MHSA与卷积之间的优劣。
解释VisTs与CNNs的性能差别不是这篇论文的目标，绝对于钻研MHSA和卷积的差别，论文则关注于ViTs与CNNs在构建长距离地位关系(long-range spatial connections)的范式上的差别。在ViTs中，MHSA通常应用较大的感触域($\ge 7\times 7$)，每个输入都能蕴含较大范畴的信息。而在CNNs中，目前的做法都是通过重叠较小($3\times 3$)的卷积来增大感触域，每个输入所蕴含信息的范畴较小。

基于下面发现的感触域差别，论文尝试通过引入大量大核卷积层来补救ViTs和CNNs之间的性能差别。借此提出了RepLKNet网络，通过重参数化的大卷积来建设空间关系。RepLKNet网络基于Swin Transformer骨干进行革新，将MHSA替换为大的深度卷积，性能比ViTs网络更好。另外，论文通过图1的可视化发现，引入大卷积核绝对于重叠小卷积能显著晋升无效感触域(ERFs)，甚至能够跟ViTs一样可能关注形态特色。

Guidelines of Applying Large Convolutions

间接应用大卷积会导致性能和速度大幅降落，论文通过试验总结了5条高效应用大卷积核的准则，每条准则还附带了一个备注。

Guideline 1: large depth-wise convolutions can be efficient in practice.

大卷积的计算成本很高，参数量和计算量与卷积核大小成二次方关系，而深度卷积恰好能够补救这一毛病。将各stage的卷积核从$[3,3,3,3]$规范卷积改为$[31,29,27,13]$深度卷积，仅带来了18.6%的计算量减少和10.4%的参数量减少。
但因为计算量和内存拜访数的比值较低，$3\times 3$深度卷积在并行设施上的计算效率较低。不过当卷积核变大时，单个特征值被应用的次数减少，深度卷积的计算密度则会相应进步。依据Roofline模型，计算密度随着卷积核的增大而增大，计算提早应该不会像计算量那样减少那么多。

Remark 1

如表1所示，目前的深度学习框架对深度卷积的实现较为低效。为此，论文尝试了不同的办法来优化CUDA内核，最初抉择了block-wise(inverse) implicit gemm算法并集成到了MegEngine框架中。绝对于Pytorch，深度卷积带来的计算提早从49.5%升高到了12.3%，简直与计算量成正比。
具体的相干剖析和实现，能够去看看这篇文章《凭什么 31x31 大小卷积核的耗时能够和 9x9 卷积差不多？》(https://zhuanlan.zhihu.com/p/...)。

Guideline 2: identity shortcut is vital especially for networks with very large kernels.

为了验证短路连贯对大卷积核的重要性，论文以MobileNetV2作为基准，替换其中的深度卷积核大小来进行有无短路连贯的比照。如表2所示，在有短路连贯的状况下，大卷积核能带来0.77%的性能晋升。而没短路连贯的状况下，大卷积核的准确率升高至53.98%。

Remark 2
这个准则同样也实用于ViTs中。近期有钻研发现，如果移除短路连贯，ViTs中的注意力会随着深度的减少而双倍地缩小，最初呈现注意力适度平滑的问题。只管大卷积核性能降落的起因可能跟ViT不一样，但同样也有难以捕获部分特色的景象。为此，论文认为如参考文献《Residual networks behave like ensembles of relatively shallow
networks》所说的，短路连贯可能使得模型显式地变为多个不同感触域大小的模型的组合(小感触域与大感触域一直间接累加)，从而可能在更大的感触域中失去晋升并且不会失落捕获小尺度特色的能力。

Guideline 3: re-parameterizing with small kernels helps to make up the optimization issue.

论文将MobileNetV2中的$3\times 3$卷积核别离替换为$9\times 9$和$13\times 13$，再采纳构造重参数帮忙更好地训练。具体的做法如图2所示，先将$3\times 3$卷积核替换为更大的卷积核，再并行一个$3\times 3$深度卷积层，通过BN解决后将其后果相加作为输入。训练实现后，合并并行的大小卷积层及其BN层，失去没有小卷积层的模型。整体思路跟RepVGG相似，有趣味的能够去看看公众号之前的文章《RepVGG：VGG，永远的神！ | 2021新文》

构造重参数的对比方表3所示，卷积核从9增大到13导致了准确率的降落，应用构造重参数则可用解决这个问题。在语义宰割工作中，构造重参数也同样能够解决增大卷积核导致性能降落的问题。

Remark 3
ViTs在小数据集上会有优化问题，通常须要增加前置卷积层来解决。比方在每个self-attention后面增加一个$3\times 3$深度卷积层，这跟论文提出的并行$3\times 3$卷积的做法相似。增加的卷积层能为ViT网络事后引入平移不变性和部分特色，使其在小数据集上更容易优化。论文在RepLKNet上也发现了相似的景象，当预训练数据集增大到7300万时，不再须要构造重参数化来辅助优化。

Guideline 4: large convolutions boost downstream tasks much more than ImageNet classification.

如后面表3所示，绝对于分类工作，卷积核增大为宰割工作带来的收益更多。而表5的后果也有相似的景象，大卷积核在ADE20K数据集上的晋升更为显著。这表明，即便预训练模型有类似的ImageNet性能，但其在上游工作中的性能可能差距较大。

Remark 4
论文认为导致这一景象的起因次要有两点：
大卷积核能显著减少无效感触域(ERF)，可蕴含更多的上下文信息，这对上游工作非常要害。
大卷积能疏导网络偏向于学习更多形态特色。图像分类仅须要上下文或形态信息，而指标辨认则十分须要形态信息。所以，偏向于更多形态特色的模型显然更适宜上游工作。ViTs之所以在上游工作中体现强劲，也是得益于其弱小的形态特征提取能力。相同，ImageNet预训练的传统卷积网络则偏向于上下文信息。

Guideline 5: large kernel (e.g., 13×13) is useful even on small feature maps (e.g., 7×7).

为了验证大卷积在小特色图上的有效性，将MobileNetV2最初的stage(特色图大小为7x7)的深度卷积别离扩充至7x7和13x13进行比照，试验构造附带了准则3倡议的构造重参数。后果如表4所示，只管特色图曾经很小了，增大卷积核仍然能够带来性能晋升。

Remark 5

当小特色图上的卷积核变大时，卷积的平移不变性不再严格成立。如图3所示，两个相邻的输入关联了不同的卷积核权值。这刚好合乎ViTs的理念，通过放宽对称的先验要求(如输入要用雷同的卷积权值得到)来取得更大的辨认能力。乏味的是，transformer中应用的2D绝对地位编码(其它特色绝对于以后特色的地位)也可认为是一个卷积核大小为$(2H-1)\times(2W-1)$的深度卷积，其中$H$和$W$别离为特色图的高和宽。所以，大卷积核不仅可能帮忙学习特色间的绝对地位信息，因为要增加较多padding，还编码了相对地位信息(参考论文《On translation invariance in cnns: Convolutional layers can exploit
absolute spatial location》)。

RepLKNet: a Large-Kernel Architecture

基于下面的准则，论文提出了RepLKNet，一个大卷积核的纯CNN架构。目前，SOTA小网络依然以CNN为主，所以论文次要在大模型方面与ViT进行比拟。

Architecture Specification

RepLKNet的构造如图4所示，各模块细节如下：

Stem：因为RepLKNet的次要利用是上游工作，所以须要在网络后期捕获更多的细节。在开始的stride=2 3x3卷积下采样之后接一个3x3深度卷积来提取低维特色，之后接一个1x1卷积和3x3深度卷积用于下采样。
Stages 1-4：每个stage蕴含多个RepLK Block，block外面蕴含了准则1倡议的深度卷积和准则2倡议的短路连贯。依据准则3，每个深度卷积并行一个5x5深度卷积用于构造重参数。除了感触域和空间特征提取能力，模型的特色表达能力还和特色的维度无关。为了减少非线性和通道间的信息交换，在深度卷积前用1x1卷积减少特色维度。参考transformers和MLPs网络应用的Feed-Forward Network(FFN)，论文提出CNN格调的ConvFFN，蕴含短路连贯、两个1x1卷积核GELU。在利用时，ConvFFN的两头特色个别为输出的4倍。参照ViT和Swin，将ConvFFN搁置在每个RepLK Block前面。
Transition Blocks：放在stage之间，先用1x1卷积扩充特色维度，再通过两个3x3深度卷积来进行2倍下采样。

总的来说，每个stage有3个超参数：ReLK Block数$B$、维度数$C$以及卷积核大小$K$，所以一个RepLKNet的构造可表白为$[B_1, B_2, B_3, B_4]$, $[C_1, C_2, C_3, C_4]$, $[K_1, K_2, K_3, K_4]$。

Making Large Kernels Even Larger

论文固定$B=[2,2,18,2]$以及$C=[128,256,512,1024]$，简略调整$K$提出了5个不同大小的网络，称为RepLKNet-3/7/13/25/31。在没有非凡调整训练配置状况下，各模型的参数和性能如表5所示。
另外，论文还对训练配置进行细调以便于与SOTA模型比照，该模型称为RepLKNet-31B。在此基础上，调整超参数$C=[192,384,768,1536]$失去RepLKNet-31L。进一步调整超参数$C=[256，512，1024，2048]$失去RepLKNet-31XL，该网络的RepLK Blocks的两头特色为输出的1.5倍。

Discussion

Large-Kernel CNNs have Larger ERF than Deep Small-Kernel Models

一般来说，重叠的小卷积最终也能达到跟单个大卷积一样的感触域大小，但为什么传统网络的性能要低于大卷积核网络呢？论文认为，只管能达到同样大小的感触域，单层大卷积核要比多层小卷积更无效，次要有两点：

依据无效感触域个性，其大小与$\mathcal{O}(K\sqrt{L})$成比例关系。能够看到，无效感触域与卷积核大小成线性关系，而与深度成次线性关系。
深度的减少会带来训练问题。只管ResNet仿佛曾经解决了这个问题，但近期有钻研表明，ResNet的无效感触域并没有随着深度减少而显著减少。

所以大卷积核的设计仅须要更少的层就能够达到预约的无效感触域，同时防止了深度减少带来的优化问题。

论文也对ResNet和RepLKNet的无效感触域进行可视化和统计，发现RepLkNet整体无效感触域要大于ResNet。

Large-kernel Models are More Similar to Human in Shape Bias

有钻研发现ViT更靠近人体视觉，基于指标的形态进行预测，而CNN则更多地依赖部分上下文。论文借用https://github.com/bethgelab/...的工具来计算模型的形态特色的偏差性，失去图5的后果，后果越低越好。从后果来看，大卷积核的RepLKNet更重视形态特色，当卷积核缩小时，RepLKNet-3则变为更重视上下文特色。

Dense Convolutions vs. Dilated Convolutions

空洞卷积是一个罕用的扩充卷积范畴的办法，所以论文对空洞深度卷积和一般深度卷积进行了比照。如表11所示，只管最大感触域可能一样，但空洞深度卷积的表达能力要弱很多，准确率降落非常明显。这也是合乎预期的，尽管空洞卷积的感触域较大，但其计算用的特色非常少。

Experiment

ImageNet图像分类性能比照。

Cityscapes语义宰割性能比照。

ADE20K语义宰割性能比照。

MSCOCO指标检测性能比照。

Conclusion

论文提出引入多数超大卷积核层来无效地扩充无效感触域，拉近了CNN网络与ViT网络之间的差距，特地是上游工作中的性能。整篇论文论述非常具体，而且也优化了理论运行的体现，值得读一读、试一试。

如果本文对你有帮忙，麻烦点个赞或在看呗～
更多内容请关注微信公众号【晓飞的算法工程笔记】