共计 2139 个字符,预计需要花费 6 分钟才能阅读完成。
论文提出新鲜的轻量级通道注意力机制 coordinate attention,可能同时思考通道间关系以及长距离的地位信息。通过试验发现,coordinate attention 可无效地晋升模型的准确率,而且仅带来大量的计算耗费,非常不错
起源:晓飞的算法工程笔记 公众号
论文: Coordinate Attention for Efficient Mobile Network Design
- 论文地址:https://arxiv.org/abs/2103.02907
- 论文代码:https://github.com/Andrew-Qibin/CoordAttention
Introduction
目前,轻量级网络的注意力机制大都采纳 SE 模块,仅思考了通道间的信息,疏忽了地位信息。只管起初的 BAM 和 CBAM 尝试在升高通道数后通过卷积来提取地位注意力信息,但卷积只能提取部分关系,不足长距离关系提取的能力。为此,论文提出了新的高效注意力机制 coordinate attention,可能将横向和纵向的地位信息编码到 channel attention 中,使得挪动网络可能关注大范畴的地位信息又不会带来过多的计算量。
coordinate attention 的劣势次要有以下几点:
- 不仅获取了通道间信息,还思考了方向相干的地位信息,有助于模型更好地定位和辨认指标。
- 足够灵便和轻量,可能简略地插入挪动网络的外围构造中。
- 能够作为预训练模型用于多种工作中,如检测和宰割,均有不错的性能晋升。
Coordinate Attention
Coordinate Attention 可看作加强挪动网络特色表达能力的计算单元,承受两头特色 $X=[x_1,x_2,\cdots,x_C]\in\mathbb{R}^{C\times H\times W}$ 作为输出,输入与 $X$ 大小雷同的加强特色 $Y=[y_1,y_2,\cdots,y_C]$。
Coordinate Attention Blocks
Coordinate Attention 基于 coordinate information embedding 和 coordinate attention generation 两个步骤来编码通道关系和长距离关系。
Coordinate Information Embedding
channel attention 罕用全局池化编码全局空间信息,将全局信息压缩成一个标量,难以保留重要的空间信息。为此,论文将全局池化革新成两个 1 维向量的编码操作。对于输出 $X$,应用池化核 $(H,1)$ 和 $(1,W)$ 来编码程度方向和垂直方向特色,即第 $c$ 维特色的输入为:
下面的公式从不同的方向集成特色,输入一对方向可知的特色图。比照全局池化的压缩形式,这样可能容许 attention block 捕获单方向上的长距离关系同时保留另一个方向上的空间信息,帮忙网络更精确地定位指标。
Coordinate Attention Generation
为了更好地利用上述的 coordinate infomation,论文提出了配套的 coordinate attention generation 操作,次要基于以下三点准则进行设计:
- 足够简略和轻量。
- 能齐全利用提取的地位信息。
- 能同样高效地解决通道间的关系。
首先将公式 4 和公式 5 的输入 concatenate 起来,应用 $1\times 1$ 卷积、BN 和非线性激活进行特色转化:
$f\in\mathbb{R}^{C/r\times(H+W)}$ 为蕴含横向和纵向空间信息的两头特色,$r$ 为缩减因子。这里两个方向的特色没有做强烈的交融,concatenate 的次要目标我感觉是进行对立的 BN 操作。随后将 $f$ 分为两个独立的特色 $f^h\in\mathbb{R}^{C/r\times H}$ 和 $f^w\in\mathbb{R}^{C/r\times W}$,应用另外两个 $1\times 1$ 卷积和 sigmoid 函数进行特色转化,使其维度与输出 $X$ 统一:
将输入 $g^h$ 和 $g^w$ 合并成权重矩阵,用于计算 coordinate attention block 输入:
coordinate attention block 与 se block 的最大区别是,coordinate attention block 的每个权重都蕴含了通道间信息、横向空间信息和纵向空间信息,可能帮忙网络更精确地定位指标信息,加强辨认能力。
Implementation
将 coordinate attention block 利用于 MobileNetV2 和 MobileNeXt 上,block 构造如图 3 所示。
Experiment
基于 MobileNetV2 进行模块设置的比照试验。
不同注意力构造在不同骨干网络上的性能比照。
对指标检测网络的性能比照。
对语义宰割工作的性能比照。
Conclusion
论文提出新鲜的轻量级通道注意力机制 coordinate attention,可能同时思考通道间关系以及长距离的地位信息。通过试验发现,coordinate attention 可无效地晋升模型的准确率,而且仅带来大量的计算耗费,非常不错。
如果本文对你有帮忙,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】