关于人工智能:论文阅读基于骨架动作识别的空间残差层和密集连接块增强的时空图卷积网络

Spatial Residual Layer and Dense Connection Block Enhanced Spatial Temporal Graph Convolutional Network for Skeleton-Based Action Recognition

起源

作者单位	会议	论文地址	代码
江南大学	ICCV 2019	论文地址	暂无

翻新点

引入了空间残差层来捕捉和交融时空特色
在先前的工作中，时空层包含空间图卷积和工夫卷积。然而不同卷积的序列叠加会混合不同域的信息，从而导致辨认不精确。通过引入跨域空间残差卷积，能够加强时空信息

此外，提出了一个密集连贯块来提取全局信息

它由多个空间残差层组成。在这些层中，能够通过密集连贯来传递信息。

联合下面提到的两个组件来创立了一个时空图卷积网络(ST-GCN),称为SDGCN

图1.该办法将2D空间卷积与1D工夫卷积集成在一起，用于时空特色示意，用于基于骨骼的动作辨认。蓝色方块代表空间图卷积，黄色代表工夫卷积。

网络结构

次要工作：空间残差层和密集连贯块加强的时空图卷积网络

空间残差层Spatial Residual Layer (SRL)

ResNet 首先通过引入残差构造来提出残差连贯的概念，其中输出节点信息通过恒等映射传递。残差映射的想法是删除雷同的次要局部，从而突出显示较小的更改。通过引入残差映射，整个构造对输入的变动更加敏感。残差层能够看作是一个放大器，通过正当的设置，敏感信息会被放大，因而残差连贯只须要关怀它须要学习的内容即可。

图2.空间残差ST-GCN层。下部是ST-GCN层，由空间图卷积和工夫卷积组成，上部是空间图卷积。就像在ResNet中一样，残差连贯的输出与ST-GCN层雷同，而后将从残差连贯取得的输入增加到ST-GCN层的输入中，相加的后果是最终的输入。

这里的空间残差连贯是跨域的。时空交融网络由空间图卷积分支和时空卷积分支组成。恒等映射是图中的上流。与原始的ResNet不同，此处的恒等映射由图卷积组成，该图卷积也能够视为非凡的双流构造，其中一个流学习动态特色，而另一个流学习时空特色。通过2D空间图卷积，能够提取动态空间特色。因为残差连贯，残差图将留神动态空间信息。原始层只须要器重时空信息。这种设计使GCN能够更无效地从视频中学习重要信息。

密集连贯块Dense Connection Block (DCB)

它的构造非常简单，由几个密集的连贯块组成。在每个块中，每个图层的特色图都与雷同尺度的所有先前特色连贯在一起。通过引入密集连贯，将重用每一层的特色。一方面，应用大量的计算，能够取得更丰盛的特色图。另一方面，重用特色更弱小，因而缩小了不同层之间的依赖性。

图3.每个密集的连贯块都蕴含几个空间残差层。在这里，除了第一层或最初一层，每层输出特色的大小与上一层的输入大小完全相同。

在每个密集连贯块中，每一层都已连贯到所有后续层。 在通道中将它们全副串联在一起。这样，能够在当前的层中重用先前层所提取的大多数信息。就像DenseNet一样，此块容许整个网络充分利用全局信息。最重要的是，从特色的角度来看，通过特色重用和旁路设置，能够大大减少网络参数的数量，并在肯定水平上缓解了梯度隐没的问题。另一方面，每一层的输出不仅包含前一层的输入，而且还包含其余先前的层。这也进步了网络的健壮性。

总体构造

在这里，将空间残差层和密集连贯块组合在一起，以造成最终的体系结构，称为SDGCN。留神，几个空间残差层形成一个块。引入密集连贯来连贯每个块中的这些层。整个网络结构由3个密集连贯块组成。在每个块中，通道大小的设置能够充分利用密集连贯。采纳原始ST-GCN的设置，这确保了所提出的办法能够利用于罕用的ST-GCN构造。

图4.左：基于DCB1的SDGCN。遵循规范的ST-GCN模型来设计模型。右：基于DCB2的SDGCN。与左图相比，为了充沛探讨密集连贯的作用，引入了更多的层和密集连贯。空心圆示意SRL。

试验局部

融化试验

表1.在Kinetics数据集上的融化试验。 SRL示意空间残差层，DCB示意密集连贯块(DCB1和DCB2)，如图4所示。报告了在Kinetics数据集上的TOP-1和TOP-5准确率。
表2.在NTU-RGB+D数据集的融化试验。咱们报告穿插对象和穿插视图数据上的准确性。其余符号与Tab雷同。只上报TOP-1准确率。

对Kinetics和NTU-RGB + D进行具体的试验比拟

空间残差层

首先以STGCN 为基准，摸索跨域空间残差层的有效性

与原始构造相比，对于由空间图卷积运算和工夫卷积串联组成的每个时空构造，咱们向原始网络引入空间残差连贯，简称为SRL，并保留其余条件不变

发现与基线办法相比，带有SRL的ST-GCN体现出显著的改良

在Kinetics上，性能进步了2.61％

对于NTU-RGB + D，Cross-Subject和Cross-View的性能别离进步了1.75％和2.76％

密集连贯块

DCB1基于原始构造，蕴含10层。为了演示密集连贯的作用，设计了DCB2，它蕴含12层

具备DCB1的ST-GCN的性能进步了1.51％，具备DCB2的ST-GCN的性能进步了2.48％

显然，密集的连贯为咱们的网络做出了很大的奉献，然而，随着密集连贯的减少，网络参数的数量迅速减少。此外，自觉的累积网络复杂性可能导致某些数据集的模型适度拟合。

后果比拟

为了进行全面的比拟，抉择将咱们的办法与两个重要的基线相比：ST-GCN 和2s-AGCN 。第一个基准是基于骨骼的动作辨认方面的开创性工作，而2s-AGCN是最新的最佳办法。将SRL和DCB合并在一起以报告最终后果。最终模型表示为SDGCN。

与基于ST-GCN的办法相比，在Kinetics上的准确性进步到34.06％，在Cross-Subject和Cross-View测试中别离进步到84.04％和91.43％。

当2s-AGCN作为基准时，在Kinetics上，所提出的办法达到了37.35％的精度。在NTU-RGB + D上，Cross-Subject和Cross-View数据的准确度别离为89.58％和95.74％

表3 与目前最先进的办法在Kinetics数据集上的比拟

表4.在NTURGB+D上与现有办法的比拟

小结

提出了一个对立的时空图卷积网络框架，称为SDGCN，以进步基于骨架的动作辨认的性能。通过引入跨域空间图残差层和密集连贯块，充分利用了时空信息，进步了时空信息处理的效率。能够很容易地将其合并到支流的时空图网络中。