共计 1553 个字符,预计需要花费 4 分钟才能阅读完成。
DDGCN: A Dynamic Directed Graph Convolutional Network for Action Recognition
作者 | Matthew Korban, Xin Li
单位 | 路易斯安那州立大学
论文地址 | https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123650749.pdf
会议 | ECCV 2020
摘要
提出了一种动静有向图卷积网络(DDGCN),从人体行为的骨架示意登程,对人体行为的时空特色进行建模
DDGCN 由三个新的特色建模模块组成:
- 动静卷积采样(DCS)
- 动静卷积权重(DCW)
- 有向图时空 (DGST) 特征提取
DCS 和 DCW 模块能够无效地捕获动静的非相邻关节之间的时空相关性
DSTG 特征提取模块,通过蕴含时空的有序信息来加强动作的特色
网络架构
动静卷积采样(DCS)
人体非相邻的子局部在人类行为中往往是互相关联的,且这种关联是动静的
DCS 算法能够总结如下
- 依照骨架模板初始化动态图 $G_S$,并相应地初始化所有节点的索引
初始化街坊采样:对于∀vi∈GS,分两步创立其初始有序近邻汇合 pi(B(Vi))
- 创立包含图中所有其余节点的有序节点汇合 Oi,该有序节点汇合 Oi 包含依据图到 vi 的图间隔排序的图中的所有其余节点。当两个节点 Vj 和 Vr 具备雷同的图间隔 (例如,都离 Vi 有 r 跳间隔) 时,则依据它们的初始化索引对它们进行排序
- 给定核大小 r,从 Oi 中选取前 r 个节点,这些节点在此步骤 pi(B(Vi))中造成有序的邻集
- 更新采样邻域:∀vi,通过学习缩小辨认损失的最优偏移量∆pi 来更新索引偏移量和邻域采样
最初,在 $G_{ST}$ 上,通过如下公式 (1) 的图形卷积计算特色图 $f_{ST}$
$$
f_{S T}\left(v_{i}\right)=\sum_{v_{j} \in B\left(v_{i}\right)} w\left(v_{i}\right) \cdot\left(p_{i}\left(v_{j}\right)+\Delta p_{i}\left(v_{j}\right)\right)
$$
其中 i 和 j 别离是核心采样节点和相邻采样节点的索引,B 是动静相邻采样节点汇合,w 是动静权重函数,pi 是动静相邻采样函数,∆pi 是偏移采样函数
动静卷积权重(DCW)
DCW 权重调配模块动静地将权重 $w_i$ 调配给 $v_i$ 的相邻节点
应用动静工夫规整 (DTW) 算法来计算 $P_v=DTW_{path} (W,B(v))$
$P_v$ 中的第一列定义了 W 中元素的排序索引,第二列示意所选元素及其在 $B(V)$ 中的程序
有向时空图 (DSTG) 特色
骨骼特色 $f_{i}^{B}=\\overline{f_{i-1} f_{i}}=f_{i-1}-f_{i}$
工夫特色 $f_{i}^{T}=f_{i}^{t}-f_{i}^{t-1}$
串联失去节点 v_i 的特征向量 $F_{i}=\\left\\{f_{i}^{J}, f_{i}^{B}, f_{i}^{T}\\right\\}$
试验
在 NTURGB-D 60 和 Kinetics 数据集上性能均优于其余办法
融化试验
DSTG 模块对于性能晋升最大,残缺的 DDC 模块可失去最高的准确率
辨认不残缺的动作
对失落帧的动作辨认进行的试验,分为以下 3 中状况
- 静止开始时失落帧
- 静止完结时失落帧
- 序列中随机失落的帧
论断是 静止开始时的序列存在大部分特色
总结
提出了一种基于骨架图的动静有向图卷积网络 (DDGCN) 动作辨认算法
DDGCN 由三个新模块组成,动静卷积抽样 (DCS)、动静卷积权重调配(DCW) 和有向图时空 (DGST) 特征提取
这些新模块有助于更好地捕获时空依赖关系,骨架的层次结构和时序特色。试验表明,DDGCN 在多个公共数据集上的动作辨认准确率优于最先进的算法