CCNet, Transformer递归穿插自注意力,比非部分神经网络更无效。华中科技大学、地平线、ReLER 和伊利诺伊大学香槟分校联结研发
论文提出了穿插网络 (CCNet),对于每个像素,CCNet 中的一个新的穿插注意力模块收集其穿插门路上所有像素的上下文信息。通过进一步的递归操作,每个像素最终都能够从所有像素中捕捉残缺图像的依赖关系。与 Non-Local Neural Network 相比,CCNet 应用的 GPU 内存缩小了 11 倍,FLOP 缩小了约 85%。TPAMI的CCNet,进一步加强了更好的损失函数,扩大到3D状况。
CCNet (2019 ICCV)
CNN骨干:深度卷积神经网络(DCNN),以全卷积的形式设计,如DeepLabv2,用于生成空间大小为H×W的特色图X。去除最初两个下采样操作,并在后续的卷积层中应用收缩卷积,从而将输入特色映射的宽度/高度放大X到输出图像的1/8。
穿插注意力模块
对于输出X,利用卷积层来取得降维的特色图H,而后将特色图H输出到cross -cross attention模块以生成新的特色图H '。
特色图H '仅聚合程度和垂直方向的上下文信息。
为了取得更丰盛、更密集的上下文信息,特色图H '会再次输出到穿插注意力模块中,以取得特色图H ’’。特色图H”中的每个地位实际上收集了所有像素的信息。
两个穿插注意力模块在前后共享雷同的参数,这样能够防止增加过多的额定参数,它被命名为循环穿插注意力(RCCA)模块。
而后,密集上下文特色H”与部分示意特色x会被连接起来,通过一个或多个卷积层进行批量归一化和激活进行特色交融。最初将交融后的特色送入宰割层预测最终的宰割后果。
CCNet (2020 TPAMI)
类别统一的特色学习
在TPAMI中,除了宰割损失的穿插熵损失lseg之外,还减少了类别统一的损失来驱动RCCA模块间接学习类别统一特色。lvar、ldis、lreg 被用于
- 惩办每个实例具备雷同标签的特色之间的大间隔
- 惩办不同标签的均匀特色之间的小间隔
- 别离向原点绘制所有类别的均匀特色
示意如下
图中设C是类的汇合,Nc是属于类C的无效元素个数,hi是空间地位i的特征向量,c是类C∈C(聚类核心)的均值特色。是一个分段间隔函数。v和d别离为边距。为了缩小计算量,首先在RCCA模块的输入上利用一个带有1×1核的卷积层进行降维,而后将这三个损失利用于通道较少的特色图。最终损失l是所有损失的加权和:
这里的v= 0.5, d=1.5, ==1, =0.001, 16为用于降维的通道数。
3D穿插注意力
3D注意力架构是对2D版本的扩大,它从工夫维度收集了更多的上下文信息。
试验后果
Cityscapes数据集
在没有附加特色的状况下,采纳单尺度测试的CCNet依然能够达到相当的性能。
经过训练和验证集的训练,CCNet在测试集上的性能大大优于所有以前的最先进技术。
在基线中增加一个穿插留神模块(R=1),性能进步了2.9%。
将循环次数从1次减少到2次能够进一步提高1.8%的性能,证实了密集上下文信息是效性的。将循环从2个减少到3个,稍微进步了0.4%的性能。
在损失函数中应用分段函数能够取得比繁多二次函数稍好的性能。
下图中,“+RCCA”分两步造成密集的上下文信息,后一步能够从第一步生成的特色图中学习到更好的注意力图,因为第一步曾经嵌入了一些长期依赖关系。
与非部分神经网络中的“+NL”办法相比,论文提出的“+RCCA”办法在计算全图像依赖时,GPU内存占用缩小了11倍,FLOPs显著升高了约85%的非部分块。
当R=2时,能够学习到长期依赖关系,而当R=1时则不能。
ADE20K数据集
应用CCL的CCNet实现了45.76%的最佳性能,比以前的最先进办法高出1.1%以上,也比会议公布时的CCNet高出0.5%。
增加CCL的成果更好。
LIP数据集
CCNet实现了55.47%的最佳性能,比以前最先进的办法高出2.3%以上。
前两行显示了一些胜利的宰割后果。CCNet能够对简单的姿势进行精确的宰割。第三行显示了一个失败的宰割后果,其中“裙子”被谬误地分类为“裤子”。
COCO数据集
CCNet在所有指标上都大大优于基线。
CamVid数据集
CCNet的3D版本,CCNet3D在CamVid上后果。
CCNet3D实现了79.1%的mIoU,大大超过了所有其余办法。
论文地址
[2019 ICCV] [CCNet]CCNet: Criss-Cross Attention for Semantic Segmentation
[2020 TPAMI] [CCNet]CCNet: Criss-Cross Attention for Semantic Segmentation
https://avoid.overfit.cn/post/b5cfb577af0248f1b12a63d8c3b10928
作者:Sik-Ho Tsang