关于计算机视觉:CVPR-2021-｜针对强时序依赖即插即用混合注意力机制的-ACTION-模块

作者 | 王正蔚佘琪
编辑 | CV 君
报道 | 我爱计算机视觉（微信 id：aicvml）

本文是对咱们 CVPR 2021 接管的工作 “ACTION-Net: Multipath Excitation for Action Recognition” 的介绍。次要针对强时序依赖行为辨认这个场景，设计了一组卷积模块。

作者单位：都柏林圣三一大学，字节跳动
论文地址：https://arxiv.org/abs/2103.07372
我的项目地址：https://github.com/V-Sense/AC…

ACTION 的核心思想是生成三个 attention map 即时空 attention map，channel attention map 和 motion attention map 来激发相应视频中的特色。因为 ACTION 模块是基于 2D CNN 的，所以 ACTION 的输出是一个 4D

(N: batch size, T: number of segments, C: number of channels, H: hegith, W: width)。上面咱们将介绍三个模块别离对于输出 X 的解决。

该模块通过产生时空 attention map 来提取视频中的时空 (spatio-temporal) 特色。传统的时空特征提取次要应用 3D 卷积，但间接对输出引入 3D 卷积会大大的减少模型的计算量。所以咱们先对 X 做一个 channel average 失去一个对于时空的 global channel 的特色

咱们再将

reshape 成可能被 3D 卷积操作的维度即(N, 1, T, H, W)。至此，咱们能够用一个 3D 卷积核查这个 F 进行卷积，卷积完之后再通过 Sigmoid 就能够失去一个时空的 attention map

这个时空 attention map reshape 成和 X 一样的维度再去点乘 X 就能够失去激发咱们所须要的时空特色。STE 的构造和 PyTorch API 伪代码如下图：

STE 的结构图

PyTorch API 伪代码图

这个 block 是基于 SE-Net 的 SE block。但因为视频动作中含有时序信息，所以咱们在信道的 squeeze 和 unsqueeze 之间插入了 1D 在时域上的卷积来加强信道在时域上的相互依赖水平。和 SE 一样，咱们能够失去一个基于信道的 attention map

和 STE 一样，咱们用失去的 attention map 点乘输出的 X 失去信道所激发特色。STE 的构造和 PyTorch API 伪代码如下图：

STE 的结构图

PyTorch API 伪代码图

ACTION 模块是由以上提到的三个注意力模块并联而成。这个模块和之前的工作 TSM 一样，即插即用。在和 state-of-the-art 的办法比拟中，咱们的 backbone 采纳了和之前工作雷同的 ResNet-50 作为比拟。同时，咱们以 TSN 和 TSM 为 baseline 测试了 ACTION 在不同 backbone (ResNet-50, MobileNet V2, BN-Inception) 上的性能。

咱们别离用了三个侧重于时序动作的视频数据集: Something-Something V2, Jester, EgoGesture 来测试咱们提出的 ACTION 模块。

从下表中能够看出 ACTION 在 Jester 和 EgoGesture 下面的体现还是非常鲁棒的，都获得了 state-of-the-art 的成果。在 Something V2 的数据集下面相比 STM 和 TEA 也获得了很相近的成果。

但值得注意的是，STM 和 TEA 都是别离针对于 ResNet 和 Res2Net 设计的，而 ACTION 是一个即插即用的模块，不会受限于 backbone 品种。

Table 3 列出了不同 path 减少的计算量，参数以及成果晋升。能够看 STE 和 CE 绝对 TSM 于所减少的计算量十分小，同时能够进步 1.7% 准确率。ME 绝对于另外两个模块计算量有所增加，但同时减少的准确率也最高。当咱们把三个模块并联成 ACTION 时，准确率最高，但同时计算量也是减少的最多的。

Table 5 列出了 ACTION 模块在不同 backbone 相较于 baseline 的一个成果晋升。咱们能够看出 ACTION 在 MobileNet V2 中所减少的计算量最低，这是因为 MobileNet V2 自身倒锥形的构造 (Inverted Residual) 即在 residual block 里，两边 channel 少，两头 channel 多。

而咱们的 ACTION 插在每个 residual 的开始，所以 MobileNet V2 这样的构造自身会是 ACTION 带来的计算量比 ResNet-50 和 BNInception 来的要小。从准确率减少的成果上来看，对 ResNet-50 的晋升最为显著(同时也减少的计算量也是最大)。

其它解读：CVPR 2021 | 用于动作辨认，即插即用、混合注意力机制的 ACTION 模块

关于计算机视觉:CVPR-2021-｜针对强时序依赖即插即用混合注意力机制的-ACTION-模块

01ACTION 模块

1.1 时空注意力 (Spatial-Temporal Excitation: STE)

1.2 信道注意力 (Channel Excitation: CE)

1.3 静止注意力 (Motion Excitation: ME)

02 试验后果

2.1 比照试验

2.2Ablation Studies