共计 2654 个字符,预计需要花费 7 分钟才能阅读完成。
Spatial Residual Layer and Dense Connection Block Enhanced Spatial Temporal Graph Convolutional Network for Skeleton-Based Action Recognition
起源
作者单位 | 会议 | 论文地址 | 代码 |
---|---|---|---|
江南大学 | ICCV 2019 | 论文地址 | 暂无 |
翻新点
引入了空间残差层来捕捉和交融时空特色
在先前的工作中,时空层包含空间图卷积和工夫卷积。然而不同卷积的序列叠加会混合不同域的信息,从而导致辨认不精确。通过引入跨域空间残差卷积,能够加强时空信息
此外,提出了一个密集连贯块来提取全局信息
它由多个空间残差层组成。在这些层中,能够通过密集连贯来传递信息。
联合下面提到的两个组件来创立了一个时空图卷积网络(ST-GCN), 称为 SDGCN
图 1. 该办法将 2D 空间卷积与 1D 工夫卷积集成在一起,用于时空特色示意,用于基于骨骼的动作辨认。蓝色方块代表空间图卷积,黄色代表工夫卷积。
网络结构
次要工作:空间残差层和密集连贯块加强的时空图卷积网络
空间残差层 Spatial Residual Layer (SRL)
ResNet 首先通过引入残差构造来提出残差连贯的概念,其中输出节点信息通过恒等映射传递。残差映射的想法是删除雷同的次要局部,从而突出显示较小的更改。通过引入残差映射,整个构造对输入的变动更加敏感。残差层能够看作是一个放大器,通过正当的设置,敏感信息会被放大,因而残差连贯只须要关怀它须要学习的内容即可。
图 2. 空间残差 ST-GCN 层。下部是 ST-GCN 层,由空间图卷积和工夫卷积组成,上部是空间图卷积。就像在 ResNet 中一样,残差连贯的输出与 ST-GCN 层雷同,而后将从残差连贯取得的输入增加到 ST-GCN 层的输入中,相加的后果是最终的输入。
这里的空间残差连贯是跨域的。时空交融网络由空间图卷积分支和时空卷积分支组成。恒等映射是图中的上流。与原始的 ResNet 不同,此处的恒等映射由图卷积组成,该图卷积也能够视为非凡的双流构造,其中一个流学习动态特色,而另一个流学习时空特色。通过 2D 空间图卷积,能够提取动态空间特色。因为残差连贯,残差图将留神动态空间信息。原始层只须要器重时空信息。这种设计使 GCN 能够更无效地从视频中学习重要信息。
密集连贯块 Dense Connection Block (DCB)
它的构造非常简单,由几个密集的连贯块组成。在每个块中,每个图层的特色图都与雷同尺度的所有先前特色连贯在一起。通过引入密集连贯,将重用每一层的特色。一方面,应用大量的计算,能够取得更丰盛的特色图。另一方面,重用特色更弱小,因而缩小了不同层之间的依赖性。
图 3. 每个密集的连贯块都蕴含几个空间残差层。在这里,除了第一层或最初一层,每层输出特色的大小与上一层的输入大小完全相同。
在每个密集连贯块中,每一层都已连贯到所有后续层。在通道中将它们全副串联 在一起。这样,能够在当前的层中重用先前层所提取的大多数信息。就像 DenseNet 一样,此块容许整个网络充分利用全局信息。最重要的是,从特色的角度来看,通过特色重用和旁路设置,能够大大减少网络参数的数量,并在肯定水平上缓解了梯度隐没的问题。另一方面,每一层的输出不仅包含前一层的输入,而且还包含其余先前的层。这也进步了网络的健壮性。
总体构造
在这里,将空间残差层和密集连贯块组合在一起,以造成最终的体系结构,称为 SDGCN。留神,几个空间残差层形成一个块。引入密集连贯来连贯每个块中的这些层。整个网络结构由 3 个密集连贯块组成。在每个块中,通道大小的设置能够充分利用密集连贯。采纳原始 ST-GCN 的设置,这确保了所提出的办法能够利用于罕用的 ST-GCN 构造。
图 4. 左:基于 DCB1 的 SDGCN。遵循规范的 ST-GCN 模型来设计模型。右:基于 DCB2 的 SDGCN。与左图相比,为了充沛探讨密集连贯的作用,引入了更多的层和密集连贯。空心圆示意 SRL。
试验局部
融化试验
表 1. 在 Kinetics 数据集上的融化试验。SRL 示意空间残差层,DCB 示意密集连贯块(DCB1 和 DCB2),如图 4 所示。报告了在 Kinetics 数据集上的 TOP- 1 和 TOP- 5 准确率。
表 2. 在 NTU-RGB+ D 数据集的融化试验。咱们报告穿插对象和穿插视图数据上的准确性。其余符号与 Tab 雷同。只上报 TOP- 1 准确率。
对 Kinetics 和 NTU-RGB + D 进行具体的试验比拟
空间残差层
首先以 STGCN 为基准,摸索跨域空间残差层的有效性
与原始构造相比,对于由空间图卷积运算和工夫卷积串联组成的每个时空构造,咱们向原始网络引入空间残差连贯,简称为 SRL,并保留其余条件不变
发现与基线办法相比,带有 SRL 的 ST-GCN 体现出显著的改良
在 Kinetics 上,性能进步了 2.61%
对于 NTU-RGB + D,Cross-Subject 和 Cross-View 的性能别离进步了 1.75%和 2.76%
密集连贯块
DCB1 基于原始构造,蕴含 10 层。为了演示密集连贯的作用,设计了 DCB2,它蕴含 12 层
具备 DCB1 的 ST-GCN 的性能进步了 1.51%,具备 DCB2 的 ST-GCN 的性能进步了 2.48%
显然,密集的连贯为咱们的网络做出了很大的奉献,然而,随着密集连贯的减少,网络参数的数量迅速减少。此外,自觉的累积网络复杂性可能导致某些数据集的模型适度拟合。
后果比拟
为了进行全面的比拟,抉择将咱们的办法与两个重要的基线相比:ST-GCN 和 2s-AGCN。第一个基准是基于骨骼的动作辨认方面的开创性工作,而 2s-AGCN 是最新的最佳办法。将 SRL 和 DCB 合并在一起以报告最终后果。最终模型表示为 SDGCN。
与基于 ST-GCN 的办法相比,在 Kinetics 上的准确性进步到 34.06%,在 Cross-Subject 和 Cross-View 测试中别离进步到 84.04%和 91.43%。
当 2s-AGCN 作为基准时,在 Kinetics 上,所提出的办法达到了 37.35%的精度。在 NTU-RGB + D 上,Cross-Subject 和 Cross-View 数据的准确度别离为 89.58%和 95.74%
表 3 与目前最先进的办法在 Kinetics 数据集上的比拟
表 4. 在 NTURGB+ D 上与现有办法的比拟
小结
提出了一个对立的时空图卷积网络框架,称为 SDGCN,以进步基于骨架的动作辨认的性能。通过引入跨域空间图残差层和密集连贯块,充分利用了时空信息,进步了时空信息处理的效率。能够很容易地将其合并到支流的时空图网络中。