关于机器学习:论文推荐CCNet用于语义分割的交叉注意力

33次阅读

共计 1998 个字符,预计需要花费 5 分钟才能阅读完成。

CCNet,Transformer 递归穿插自注意力,比非部分神经网络更无效。华中科技大学、地平线、ReLER 和伊利诺伊大学香槟分校联结研发

论文提出了穿插网络 (CCNet),对于每个像素,CCNet 中的一个新的穿插注意力模块收集其穿插门路上所有像素的上下文信息。通过进一步的递归操作,每个像素最终都能够从所有像素中捕捉残缺图像的依赖关系。与 Non-Local Neural Network 相比,CCNet 应用的 GPU 内存缩小了 11 倍,FLOP 缩小了约 85%。TPAMI 的 CCNet,进一步加强了更好的损失函数,扩大到 3D 状况。

CCNet (2019 ICCV)

CNN 骨干:深度卷积神经网络(DCNN),以全卷积的形式设计,如 DeepLabv2,用于生成空间大小为 H×W 的特色图 X。去除最初两个下采样操作,并在后续的卷积层中应用收缩卷积,从而将输入特色映射的宽度 / 高度放大 X 到输出图像的 1 /8。

穿插注意力模块

对于输出 X,利用卷积层来取得降维的特色图 H,而后将特色图 H 输出到 cross -cross attention 模块以生成新的特色图 H ‘。

特色图 H ‘ 仅聚合程度和垂直方向的上下文信息。

为了取得更丰盛、更密集的上下文信息,特色图 H ‘ 会再次输出到穿插注意力模块中,以取得特色图 H’’。特色图 H”中的每个地位实际上收集了所有像素的信息。

两个穿插注意力模块在前后共享雷同的参数,这样能够防止增加过多的额定参数,它被命名为循环穿插注意力 (RCCA) 模块。

而后,密集上下文特色 H”与部分示意特色 x 会被连接起来,通过一个或多个卷积层进行批量归一化和激活进行特色交融。最初将交融后的特色送入宰割层预测最终的宰割后果。

CCNet (2020 TPAMI)

类别统一的特色学习

在 TPAMI 中,除了宰割损失的穿插熵损失 lseg 之外,还减少了类别统一的损失来驱动 RCCA 模块间接学习类别统一特色。lvar、ldis、lreg 被用于

  • 惩办每个实例具备雷同标签的特色之间的大间隔
  • 惩办不同标签的均匀特色之间的小间隔
  • 别离向原点绘制所有类别的均匀特色

示意如下

图中设 C 是类的汇合,Nc 是属于类 C 的无效元素个数,hi 是空间地位 i 的特征向量,μc 是类 C∈C(聚类核心)的均值特色。φ 是一个分段间隔函数。δv 和 δd 别离为边距。为了缩小计算量,首先在 RCCA 模块的输入上利用一个带有 1×1 核的卷积层进行降维,而后将这三个损失利用于通道较少的特色图。最终损失 l 是所有损失的加权和:

这里的 δv= 0.5,δd=1.5,α=β=1,γ=0.001, 16 为用于降维的通道数。

3D 穿插注意力

3D 注意力架构是对 2D 版本的扩大,它从工夫维度收集了更多的上下文信息。

试验后果

Cityscapes 数据集

在没有附加特色的状况下,采纳单尺度测试的 CCNet 依然能够达到相当的性能。

经过训练和验证集的训练,CCNet 在测试集上的性能大大优于所有以前的最先进技术。

在基线中增加一个穿插留神模块(R=1),性能进步了 2.9%。

将循环次数从 1 次减少到 2 次能够进一步提高 1.8% 的性能,证实了密集上下文信息是效性的。将循环从 2 个减少到 3 个,稍微进步了 0.4% 的性能。

在损失函数中应用分段函数能够取得比繁多二次函数稍好的性能。

下图中,“+RCCA”分两步造成密集的上下文信息,后一步能够从第一步生成的特色图中学习到更好的注意力图,因为第一步曾经嵌入了一些长期依赖关系。

与非部分神经网络中的“+NL”办法相比,论文提出的“+RCCA”办法在计算全图像依赖时,GPU 内存占用缩小了 11 倍,FLOPs 显著升高了约 85% 的非部分块。

当 R = 2 时,能够学习到长期依赖关系,而当 R = 1 时则不能。

ADE20K 数据集

应用 CCL 的 CCNet 实现了 45.76% 的最佳性能,比以前的最先进办法高出 1.1% 以上,也比会议公布时的 CCNet 高出 0.5%。

增加 CCL 的成果更好。

LIP 数据集

CCNet 实现了 55.47% 的最佳性能,比以前最先进的办法高出 2.3% 以上。

前两行显示了一些胜利的宰割后果。CCNet 能够对简单的姿势进行精确的宰割。第三行显示了一个失败的宰割后果,其中“裙子”被谬误地分类为“裤子”。

COCO 数据集

CCNet 在所有指标上都大大优于基线。

CamVid 数据集

CCNet 的 3D 版本,CCNet3D 在 CamVid 上后果。

CCNet3D 实现了 79.1% 的 mIoU,大大超过了所有其余办法。

论文地址

[2019 ICCV] [CCNet]CCNet: Criss-Cross Attention for Semantic Segmentation

[2020 TPAMI] [CCNet]CCNet: Criss-Cross Attention for Semantic Segmentation

https://avoid.overfit.cn/post/b5cfb577af0248f1b12a63d8c3b10928

作者:Sik-Ho Tsang

正文完
 0