关于深度学习:LeViTUNettransformer-编码器和CNN解码器的有效整合

levi – unet[2]是一种新的医学图像宰割架构，它应用 transformer 作为编码器，这使得它可能更无效地学习近程依赖关系。levi – unet[2]比传统的 U -Nets 更快，同时依然实现了最先进的宰割性能。

levi – unet[2]在几个具备挑战性的医学图像宰割基准上获得了比其余法更好的性能，包含 Synapse 多器官宰割数据集 (Synapse) 和主动心脏诊断挑战数据集(ACDC)。

levi – unet 的编码器应用 LeViT 块构建，设计用于高效和无效地学习全局特色。解码器是应用卷积块构建的。

编码器从多个分辨率的输出图像中提取特色映射。这些特色映射被上采样，连贯而后通过跳过连贯传递到解码器。跳过连贯容许解码器从编码器拜访高分辨率的部分特色，有助于进步宰割性能。

这种设计使模型可能综合 transformer 和 cnn 的长处。transformer 刚善于学习全局特色，而 cnn 善于学习部分特色。通过联合这两种办法，levi – unet 可能取得良好的宰割性能，同时也绝对高效。

LeViT 编码器

编码器采纳 LeViT[1]，次要由两个局部组成: 卷积块和变压器块。卷积块通过对输出图像利用 4 层 3 ×3 卷积 (步幅为 2) 来执行分辨率升高。在提取更多形象特色的同时，这将图像的分辨率升高了一半。而后 transformer 块获取卷积块的特色映射并学习全局特色。

在编码器的最初阶段将来自卷积块和变压器块的特色连接起来。这使得编码器具备本地和全局个性。部分特色对于辨认图像中的小而具体的物体很重要，而全局特色对于辨认图像的整体构造很重要。通过联合部分和全局特色，编码器可能生成更精确的宰割。

依据输出第一个 transformer 块的通道数量，开发了 3 个 LeViT 编码器:levi -128s, levi -192 和 levi -384。

CNN 解码器

levi – unet 的解码器将编码器的特色与跳过连贯连贯在一起。使得解码器可能从编码器拜访高分辨率的部分特色，并采纳级联上采样策略，利用 cnn 从前一层复原分辨率。它由一系列上采样层组成，每个上采样层前面是两个 3 ×3 卷积层，一个 BN 和一个 ReLU 层。

实现细节: 数据加强(随机翻转和旋转)，优化器(Adam，学习率 1e-5，权重衰减 1e-4)，图像大小 224×224，批大小 8,epoch 350 和 400 用于 Synapse 和 ACDC 数据集

LeViT 模型优于现有模型，并且显著快于 TransUNet，后者将 Transformer 块合并到 CNN 中。

上图显示了 TransUNet、UNet、DeepLabv3+ 和 levi -UNet 四种不同办法的定性宰割后果。其余三种办法更可能导致器官有余或者适度宰割。例如，胃被 TransUNet 和 DeepLabV3+ 宰割有余(如上行第三个面板的红色箭头所示)，被 UNet 适度宰割(如第二行第四个面板的红色箭头所示)。

与其余办法相比，论文提出的模型输入绝对平滑，表明在边界预测方面更具劣势。

2 篇论文：

[1] Benjamin Graham, Alaaeldin El-Nouby, Hugo Touvron, Pierre Stock, Armand Joulin, Herv’e J’egou, Matthijs Douze, LeViT: a Vision Transformer in ConvNet’s Clothing for Faster Inference, 2021

[2] Guoping Xu, Xingrong Wu, Xuan Zhang, Xinwei He, LeViT-UNet: Make Faster Encoders with Transformer for Medical Image Segmentation, 2021

https://avoid.overfit.cn/post/474870d5912d4cb3aeade0b47c1a97e3

作者：Golnaz Hosseini

关于深度学习:LeViTUNettransformer-编码器和CNN解码器的有效整合

LeViT-UNet 架构

试验后果