关于深度学习:论文阅读DDGCN

DDGCN: A Dynamic Directed Graph Convolutional Network for Action Recognition

作者 | Matthew Korban, Xin Li
单位 | 路易斯安那州立大学
论文地址 | https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123650749.pdf
会议 | ECCV 2020

摘要

提出了一种动静有向图卷积网络(DDGCN)，从人体行为的骨架示意登程，对人体行为的时空特色进行建模

DDGCN由三个新的特色建模模块组成：

动静卷积采样(DCS)
动静卷积权重(DCW)
有向图时空(DGST)特征提取

DCS和DCW模块能够无效地捕获动静的非相邻关节之间的时空相关性

DSTG特征提取模块，通过蕴含时空的有序信息来加强动作的特色

网络架构

动静卷积采样(DCS)

人体非相邻的子局部在人类行为中往往是互相关联的，且这种关联是动静的

DCS算法能够总结如下

依照骨架模板初始化动态图$G_S$，并相应地初始化所有节点的索引
初始化街坊采样：对于∀vi∈GS，分两步创立其初始有序近邻汇合pi(B(Vi))
- 创立包含图中所有其余节点的有序节点汇合Oi，该有序节点汇合Oi包含依据图到vi的图间隔排序的图中的所有其余节点。当两个节点Vj和Vr具备雷同的图间隔(例如，都离Vi有r跳间隔)时，则依据它们的初始化索引对它们进行排序
- 给定核大小r，从Oi中选取前r个节点，这些节点在此步骤pi(B(Vi))中造成有序的邻集
更新采样邻域：∀vi，通过学习缩小辨认损失的最优偏移量∆pi来更新索引偏移量和邻域采样

最初，在$G_{ST}$上，通过如下公式(1)的图形卷积计算特色图$f_{ST}$

$$f_{S T}\left(v_{i}\right)=\sum_{v_{j} \in B\left(v_{i}\right)} w\left(v_{i}\right) \cdot\left(p_{i}\left(v_{j}\right)+\Delta p_{i}\left(v_{j}\right)\right)$$

其中i和j别离是核心采样节点和相邻采样节点的索引，B是动静相邻采样节点汇合，w是动静权重函数，pi是动静相邻采样函数，∆pi是偏移采样函数

动静卷积权重(DCW)

DCW权重调配模块动静地将权重$w_i$调配给$v_i$的相邻节点

应用动静工夫规整(DTW)算法来计算$P_v=DTW_{path} (W,B(v))$

$P_v$中的第一列定义了W中元素的排序索引，第二列示意所选元素及其在$B(V)$中的程序

有向时空图(DSTG)特色

骨骼特色 $f_{i}^{B}=\\overline{f_{i-1} f_{i}}=f_{i-1}-f_{i}$

工夫特色 $f_{i}^{T}=f_{i}^{t}-f_{i}^{t-1}$

串联失去节点v_i的特征向量 $F_{i}=\\left\\{f_{i}^{J}, f_{i}^{B}, f_{i}^{T}\\right\\}$

试验

在NTURGB-D 60和Kinetics数据集上性能均优于其余办法

融化试验

DSTG模块对于性能晋升最大，残缺的DDC模块可失去最高的准确率

辨认不残缺的动作

对失落帧的动作辨认进行的试验，分为以下3中状况

静止开始时失落帧
静止完结时失落帧
序列中随机失落的帧

论断是静止开始时的序列存在大部分特色

总结

提出了一种基于骨架图的动静有向图卷积网络(DDGCN)动作辨认算法

DDGCN由三个新模块组成，动静卷积抽样(DCS)、动静卷积权重调配(DCW)和有向图时空(DGST)特征提取

这些新模块有助于更好地捕获时空依赖关系，骨架的层次结构和时序特色。试验表明，DDGCN在多个公共数据集上的动作辨认准确率优于最先进的算法