共计 1391 个字符,预计需要花费 4 分钟才能阅读完成。
UNeXt 是约翰霍普金斯大学在 2022 年公布的论文。它在晚期阶段应用卷积,在潜在空间阶段应用 MLP。通过一个标记化的 MLP 块来标记和投影卷积特色,并应用 MLP 对示意进行建模。对输出通道进行移位,能够专一于学习部分依赖性。
UNeXt
根本架构
UNeXt 是一种编码器 - 解码器架构,具备两个阶段:
1、卷积阶段,2、标记化 MLP 阶段。
输出图像通过编码器,前 3 个块是卷积块,接下来的 2 个是标记化 MLP 块。
解码器有 2 个标记化 MLP 块,后跟 3 个卷积块。
每个编码器块应用具备窗口 2×2 的最大池化层将特色分辨率升高 2,每个解码器块应用双线性插值将特色分辨率减少 2。编码器和解码器之间也蕴含跳过连贯。每个块的通道数是一个超参数,示意为 C1 到 C5。在试验中,除非另有阐明,否则 C1=32、C2=64、C3=128、C4=160 和 C5=256。
每个卷积块时规范的一个卷积层、一个批量归一化层和 ReLU 激活层。内核大小为 3×3,步长为 1。
带位移的 MLP
conv 特色的通道轴线在标记(Tokenized)之前首先移位。这有助于 MLP 只关注 conv 特色的某些地位,从而诱导块的局部性。论文作者说,这里与 Swin Transformer 相似。因为 Tokenized MLP 块有 2 个 MLP,因而特色在一个块中跨宽度挪动,在另一个块中跨高度挪动,就像 Axial-DeepLab 中的轴向注意力一样。这样特色被宰割到 h 个不同的分区,并依据指定的轴挪动 j = 5 个地位。
标记化(Tokenized)MLP 阶段
首先应用大小为 3 的内核将通道数更改为嵌入维度 E(标记数)。而后将这些标记令牌传递给一个带移位的 MLP(跨宽度),其中蕴含 MLP 的暗藏维度,默认 H =768。
接下来,应用深度卷积层(DWConv)。它有助于对地位信息进行编码,像 SegFormer 中所倡议的,当训练 / 测试分辨率不同时,它比 ViT 具备更好的性能。并且它应用更少的参数,能够进步了效率。
激活函数应用 GELU,因为在 ViT 和 BERT 在应用 GELU 的状况下体现更好。
特色通过另一个移位的 MLP(跨高度)传递,该 MLP 将维度从 H 转换为 O。
最初还是用了残差连贯将原始标记令牌增加到残差。而后应用层归一化(LN),将输入特色传递给下一个块。
损失函数
应用二元穿插熵 (BCE) 和 dice 损失的组合:
后果展现
SOTA 比照
UNeXt 取得了比所有基线更好的宰割性能,计算量比第二的 TransUNet 少得多。UNeXt 在计算复杂度方面显著优于所有其余网络。
swing – unet(图中未显示)有 41.35 M 个参数,计算也很简单有 11.46 GFLOPs。
作者还试验了 MLP-Mixer 作为编码器和一般卷积解码器,它只有大概 11M 个参数,然而宰割的性能不是最优的。
定性后果
与其余办法相比,UNeXt 产生了具备竞争力的宰割预测。
融化试验
当深度减小,仅应用 3 级架构,也就是说只应用 Conv 阶段时,参数数量和复杂度显著缩小,但性能降落 4%。当应用标记化的 MLP 块时,它能够显着进步性能。
减少通道 (UNeXt-L) 进一步提高了性能,同时减少了计算开销。缩小通道 (UNeXt-S) 会升高性能(升高幅度并不大),但咱们失去了一个十分轻量级的模型。
论文:https://avoid.overfit.cn/post/addeb0eacf624e4b92e0c9775c40fb0a
本文作者:Sik-Ho Tsang