CycleMLP由香港大学、商汤科技研究院和上海人工智能实验室共同开发,在2022年ICLR上公布。
MLP-Mixer, ResMLP和gMLP,其架构与图像大小相干,因而在指标检测和宰割中是无奈应用的。而CycleMLP有两个长处。(1)能够解决各种大小的图像。(2)利用部分窗口实现了计算复杂度与图像大小的线性关系。
Cycle FC
Cycle Fully-Connected Layer (Cycle FC) 和 Channel FC 、Spatial FC比拟
- Channel FC:在空间大小为“1”的通道维度上聚合特色。它能够解决各种输出尺度,但不能学习空间上下文。
- Spatial FC (MLP-Mixer, ResMLP, & gMLP):在空间维度上有一个全局感触野。然而它的参数大小是固定的,并且对图像尺度具备二次计算复杂度。
- 论文的Cycle FC:具备与通道FC雷同的线性复杂度和比通道FC更大的感触野。
- (d)-(f)为三个不同步长示例:橙色块示意采样地位。F示意输入地位。为了简略起见省略了批处理尺寸,并将特色的宽度设置为1。
在放弃计算效率的同时,扩充mlp类模型的承受域,以应答上游密集的预测工作。
Cycle FC引入(SH, SW)的感触野,其中SH和SW别离为步长,随高度和宽度维数变动。根本的Cycle FC算子能够表述为:
大小为 Cin×Cout 的 Wmlp 和大小为 Cout 的 b 是Cycle FC的参数。i(c)和j(c)为第c通道上两轴的空间偏移量,定义如下:
上图中(d)示意SH=3时沿两轴的偏移量,即j(c)=0, i(c)={- 1,0,1, - 1,0,1,…},当c= 0,1,2,…,8时。(e)示意当SH=H时,周期FC具备全局感触野。(f)示意当SH=1时,沿任何轴都没有偏移,因而Cycle FC进化为Channel FC。
上表所示,更大的感触野带来了对语义宰割和对象检测等密集预测工作的改良。同时,Cycle FC在输出分辨率上依然放弃了计算效率和灵活性,flop和参数数均与空间尺度呈线性关系。
与Transformer中的MHSA比拟
受 Cordonnier ICLR’20 的启发,具备 Nh 个头的多头自注意力 (MHSA) 层能够示意如下,相似于具备以下内核大小的卷积:
Wmlp与Wmhsa的关系能够表述为:
Cycle FC中的参数size为Cin×Cout, Wmhsa为K×K×Cin×Cout。Cycle FC还引入了一个演绎偏差,即MHSA中的权重矩阵应该是稠密的。
CycleMLP
CycleMLP在MViT和PVTv2的根底上,采纳了窗口大小为7,步幅为4的重叠补丁嵌入模块。这些原始补丁通过线性嵌入层顺次利用几个Cycle FC 块进一步投影到更高维度(示意为 C)。。
Cycle FC块由三个并行的Cycle FC组成,它们的步长为1×7、7×1和1×1的SH×SW。该设计的灵感来自卷积的合成(Inception-v3)和穿插留神(CCNet)。
而后是一个通道 MLP,它有两个线性层,两头应用GELU激活。在并行Cycle FC 层和通道 MLP 模块之前利用 Layer Norm (LN) 层。在每个模块之后利用残差连贯 (ResNet)。
在每个阶段转换中,所解决的令牌的通道容量被扩大,而令牌的数量被缩小。总共有4个阶段。
模型参数如下
两个模型遵循两种宽泛应用的Transformer架构PVT和Swin构建,如上图,其中Si、Ci、Ei、Li别离代表transition的步长、token通道维度、block数量、 第I阶段的膨胀率。
PVT-style 中的模型命名为 CycleMLP-B1 至 CycleMLP-B5,Swin-Style 中的模型命名为 CycleMLP-T、-S 和 -B,别离代表 tiny、small 和 base 尺寸的模型。
后果
ImageNet
下图是mlp类模型的ImageNet-1K分类(左)。与没有额定数据的ImageNet-1K上的SOTA模型的比拟(右)。
CycleMLP的精度- flop衡量始终优于现有的相似mlp的模型。并且实现了与Swin Transformer相当的性能。
在ImageNet-1K分类中,GFNet具备与CycleMLP类似的性能。打不油滑GFNet与输出分辨率相干,这可能会影响密集预测的性能。
融化试验
左:移除三个平行分支中的一个后,top-1的精度显著降落,特地是在抛弃1×7或7×1分支时。
右:当步长为7时,CycleMLP在ADE20K上的mIoU最高。
分辨率的适应性。左:相对top-1精度;右:绝对于224测试的精度差别。与DeiT和GFNet相比,CycleMLP在分辨率变动时具备更强的鲁棒性。在较高的分辨率下,CycleMLP的性能降落比GFNet小。
指标检测与实例宰割
在类似的参数束缚下,基于cyclemlp的RetinaNet始终优于基于cnn的ResNet、ResNeXt和基于transformer的PVT。应用Mask R-CNN进行实例宰割也失去了类似的比拟后果。
CycleMLP还实现了比Swin Transformer稍好的性能。
语义宰割
左:ADE20K验证集上应用FPN的语义宰割。右:无效感触野(ERF)
在ADE20K验证集上应用UPerNet对不同骨干进行语义宰割的后果
在类似参数下,CycleMLP的性能显著优于ResNet和PVT。与Swin Transformer相比,CycleMLP能够取得与Swin Transformer相当甚至更好的性能。尽管GFNet在ImageNet分类上的性能与CycleMLP类似,但在ADE20K上,CycleMLP的性能显著优于GFNet。
鲁棒性
与transformer(如DeiT、Swin)和现有MLP模型(如MLP- mixer、ResMLP、gMLP)相比,CycleMLP具备更强的鲁棒性。
论文地址:https://avoid.overfit.cn/post/9386a243a3714965ac0f40e8362a7f4d
作者:Sik-Ho Tsang