关于机器学习:CycleMLP一种用于密集预测的mlp架构

CycleMLP 由香港大学、商汤科技研究院和上海人工智能实验室共同开发，在 2022 年 ICLR 上公布。

MLP-Mixer, ResMLP 和 gMLP，其架构与图像大小相干，因而在指标检测和宰割中是无奈应用的。而 CycleMLP 有两个长处。(1)能够解决各种大小的图像。(2)利用部分窗口实现了计算复杂度与图像大小的线性关系。

Cycle Fully-Connected Layer (Cycle FC) 和 Channel FC、Spatial FC 比拟

Channel FC: 在空间大小为“1”的通道维度上聚合特色。它能够解决各种输出尺度，但不能学习空间上下文。
Spatial FC (MLP-Mixer, ResMLP，& gMLP): 在空间维度上有一个全局感触野。然而它的参数大小是固定的，并且对图像尺度具备二次计算复杂度。
论文的 Cycle FC: 具备与通道 FC 雷同的线性复杂度和比通道 FC 更大的感触野。
(d)-(f)为三个不同步长示例: 橙色块示意采样地位。F 示意输入地位。为了简略起见省略了批处理尺寸，并将特色的宽度设置为 1。

在放弃计算效率的同时，扩充 mlp 类模型的承受域，以应答上游密集的预测工作。

Cycle FC 引入 (SH, SW) 的感触野，其中 SH 和 SW 别离为步长，随高度和宽度维数变动。根本的 Cycle FC 算子能够表述为:

大小为 Cin×Cout 的 Wmlp 和大小为 Cout 的 b 是 Cycle FC 的参数。δi(c)和 δj(c)为第 c 通道上两轴的空间偏移量，定义如下：

上图中 (d) 示意 SH= 3 时沿两轴的偏移量，即 δj(c)=0，δi(c)={- 1,0,1，– 1,0,1，…}，当 c = 0,1,2，…，8 时。(e)示意当 SH= H 时，周期 FC 具备全局感触野。(f)示意当 SH= 1 时，沿任何轴都没有偏移，因而 Cycle FC 进化为 Channel FC。

上表所示，更大的感触野带来了对语义宰割和对象检测等密集预测工作的改良。同时，Cycle FC 在输出分辨率上依然放弃了计算效率和灵活性，flop 和参数数均与空间尺度呈线性关系。

与 Transformer 中的 MHSA 比拟

受 Cordonnier ICLR’20 的启发，具备 Nh 个头的多头自注意力 (MHSA) 层能够示意如下，相似于具备以下内核大小的卷积：

Wmlp 与 Wmhsa 的关系能够表述为:

Cycle FC 中的参数 size 为 Cin×Cout, Wmhsa 为 K×K×Cin×Cout。Cycle FC 还引入了一个演绎偏差，即 MHSA 中的权重矩阵应该是稠密的。

CycleMLP 在 MViT 和 PVTv2 的根底上，采纳了窗口大小为 7，步幅为 4 的重叠补丁嵌入模块。这些原始补丁通过线性嵌入层顺次利用几个 Cycle FC 块进一步投影到更高维度（示意为 C）。。

Cycle FC 块由三个并行的 Cycle FC 组成，它们的步长为 1×7、7×1 和 1×1 的 SH×SW。该设计的灵感来自卷积的合成 (Inception-v3) 和穿插留神(CCNet)。

而后是一个通道 MLP，它有两个线性层，两头应用 GELU 激活。在并行 Cycle FC 层和通道 MLP 模块之前利用 Layer Norm (LN) 层。在每个模块之后利用残差连贯 (ResNet)。

在每个阶段转换中，所解决的令牌的通道容量被扩大，而令牌的数量被缩小。总共有 4 个阶段。

模型参数如下

两个模型遵循两种宽泛应用的 Transformer 架构 PVT 和 Swin 构建，如上图，其中 Si、Ci、Ei、Li 别离代表 transition 的步长、token 通道维度、block 数量、第 I 阶段的膨胀率。

PVT-style 中的模型命名为 CycleMLP-B1 至 CycleMLP-B5，Swin-Style 中的模型命名为 CycleMLP-T、-S 和 -B，别离代表 tiny、small 和 base 尺寸的模型。

ImageNet

下图是 mlp 类模型的 ImageNet-1K 分类（左）。与没有额定数据的 ImageNet-1K 上的 SOTA 模型的比拟（右）。

CycleMLP 的精度 - flop 衡量始终优于现有的相似 mlp 的模型。并且实现了与 Swin Transformer 相当的性能。

在 ImageNet-1K 分类中，GFNet 具备与 CycleMLP 类似的性能。打不油滑 GFNet 与输出分辨率相干，这可能会影响密集预测的性能。

融化试验

左: 移除三个平行分支中的一个后，top- 1 的精度显著降落，特地是在抛弃 1×7 或 7×1 分支时。

右: 当步长为 7 时，CycleMLP 在 ADE20K 上的 mIoU 最高。

分辨率的适应性。左: 相对 top- 1 精度; 右: 绝对于 224 测试的精度差别。与 DeiT 和 GFNet 相比，CycleMLP 在分辨率变动时具备更强的鲁棒性。在较高的分辨率下，CycleMLP 的性能降落比 GFNet 小。

指标检测与实例宰割

在类似的参数束缚下，基于 cyclemlp 的 RetinaNet 始终优于基于 cnn 的 ResNet、ResNeXt 和基于 transformer 的 PVT。应用 Mask R-CNN 进行实例宰割也失去了类似的比拟后果。

CycleMLP 还实现了比 Swin Transformer 稍好的性能。

语义宰割

左:ADE20K 验证集上应用 FPN 的语义宰割。右: 无效感触野(ERF)

在 ADE20K 验证集上应用 UPerNet 对不同骨干进行语义宰割的后果

在类似参数下，CycleMLP 的性能显著优于 ResNet 和 PVT。与 Swin Transformer 相比，CycleMLP 能够取得与 Swin Transformer 相当甚至更好的性能。尽管 GFNet 在 ImageNet 分类上的性能与 CycleMLP 类似，但在 ADE20K 上，CycleMLP 的性能显著优于 GFNet。

鲁棒性

与 transformer(如 DeiT、Swin)和现有 MLP 模型 (如 MLP- mixer、ResMLP、gMLP) 相比，CycleMLP 具备更强的鲁棒性。

论文地址：https://avoid.overfit.cn/post/9386a243a3714965ac0f40e8362a7f4d

作者：Sik-Ho Tsang