关于人工智能:UNeXt基于-MLP-的快速医学图像分割网络

UNeXt是约翰霍普金斯大学在2022年公布的论文。它在晚期阶段应用卷积，在潜在空间阶段应用 MLP。通过一个标记化的 MLP 块来标记和投影卷积特色，并应用 MLP 对示意进行建模。对输出通道进行移位，能够专一于学习部分依赖性。

UNeXt

根本架构

UNeXt 是一种编码器-解码器架构，具备两个阶段：

1、卷积阶段，2、标记化 MLP 阶段。

输出图像通过编码器，前 3 个块是卷积块，接下来的 2 个是标记化 MLP 块。

解码器有 2 个标记化 MLP 块，后跟 3 个卷积块。

每个编码器块应用具备窗口 2×2 的最大池化层将特色分辨率升高 2，每个解码器块应用双线性插值将特色分辨率减少 2。编码器和解码器之间也蕴含跳过连贯。每个块的通道数是一个超参数，示意为 C1 到 C5。在试验中，除非另有阐明，否则 C1=32、C2=64、C3=128、C4=160 和 C5=256。

每个卷积块时规范的一个卷积层、一个批量归一化层和 ReLU 激活层。内核大小为 3×3，步长为 1。

带位移的 MLP

conv特色的通道轴线在标记（Tokenized）之前首先移位。这有助于MLP只关注conv特色的某些地位，从而诱导块的局部性。论文作者说，这里与Swin Transformer相似。因为Tokenized MLP块有2个MLP，因而特色在一个块中跨宽度挪动，在另一个块中跨高度挪动，就像Axial-DeepLab中的轴向注意力一样。这样特色被宰割到h个不同的分区，并依据指定的轴挪动j=5个地位。

标记化（Tokenized） MLP阶段

首先应用大小为 3 的内核将通道数更改为嵌入维度 E（标记数）。而后将这些标记令牌传递给一个带移位的MLP(跨宽度)，其中蕴含MLP的暗藏维度，默认H=768。

接下来，应用深度卷积层(DWConv)。它有助于对地位信息进行编码，像SegFormer中所倡议的，当训练/测试分辨率不同时，它比ViT具备更好的性能。并且它应用更少的参数，能够进步了效率。

激活函数应用GELU，因为在ViT和BERT在应用GELU的状况下体现更好。

特色通过另一个移位的MLP(跨高度)传递，该MLP将维度从H转换为O。

最初还是用了残差连贯将原始标记令牌增加到残差。而后应用层归一化(LN)，将输入特色传递给下一个块。

损失函数

应用二元穿插熵(BCE)和dice 损失的组合:

后果展现

SOTA比照

UNeXt取得了比所有基线更好的宰割性能，计算量比第二的TransUNet少得多。UNeXt在计算复杂度方面显著优于所有其余网络。

swing - unet(图中未显示)有41.35 M个参数，计算也很简单有11.46 GFLOPs。

作者还试验了MLP-Mixer作为编码器和一般卷积解码器，它只有大概11M个参数，然而宰割的性能不是最优的。

定性后果

与其余办法相比，UNeXt产生了具备竞争力的宰割预测。

融化试验

当深度减小，仅应用3级架构，也就是说只应用Conv阶段时，参数数量和复杂度显著缩小，但性能降落4%。当应用标记化的MLP块时，它能够显着进步性能。

减少通道(UNeXt-L)进一步提高了性能，同时减少了计算开销。缩小通道(UNeXt-S)会升高性能(升高幅度并不大)，但咱们失去了一个十分轻量级的模型。

论文：https://avoid.overfit.cn/post/addeb0eacf624e4b92e0c9775c40fb0a

本文作者：Sik-Ho Tsang