关于深度学习:论文阅读-FGCN

4次阅读

共计 2457 个字符,预计需要花费 7 分钟才能阅读完成。

Feedback Graph Convolutional Network for Skeleton-based Action Recognition

作者 | Hao Yang, Dan Yan
单位 | NUCTECH Company Limited
论文地址|https://arxiv.org/abs/2003.07564

摘要

​ 近年来,许多学者利用图卷积网络(GCN)对骨架序列进行端到端优化建模。然而,传统的 gcn 是前馈网络,浅层不能拜访到深层的语义信息,在这篇论文中,提出一个新的网络,称为 反馈图卷积网络(FGCN)

这是 首次 将反馈机制引入 GCNs 和动作辨认中

与传统的 gcn 相比,FGCN 具备以下长处

  1. 设计了一种多阶段的工夫采样策略,以从粗到精的渐进过程提取动作辨认的时空特色
  2. 提出了一种基于浓密连贯的反馈图卷积块(FGCB)来引入反馈连贯, 它将高层语义特色传递到底层,并逐级传递工夫信息,逐渐建设全局时空特色模型,用于动作辨认
  3. FGCN 模型提供了晚期预测。在晚期阶段,模型接管到对于动作的局部信息。当然,它的预测绝对毛糙。将粗预测视为先验常识,领导前期特色学习,实现准确预测

在 NTU-RGB+D、NTU-RGB+D120 和 Northwestern-UCLA 的数据集上进行了大量的试验,结果表明所提出的 FGCN 对动作辨认是无效的。它在三个数据集上达到了最先进的性能

引言

​ 近年来,从不同终端上传的视频数量曾经减少。这推动了对基于视频内容的人类行为剖析的迫切需要。尤其是与 RGB 和光流等其余模式相比,骨架人体行为辨认因其对动静环境和简单背景的影响具备较强的适应性而吸引了许多计算机视觉研究者。晚期应用骨骼进行动作辨认的深度学习办法通常将骨骼数据表示为关节坐标向量序列或伪图像,而后别离由 RNN 或 CNN 建模

​ 然而,这些办法并没有显式地利用相干关节之间的空间依赖性,即便空间依赖性对于了解人类行为是有用的。最近,一些办法依据间断帧的天然连贯和工夫边缘来结构时空图。而后他们利用 GCN 来模仿时空特色。然而,传统的 gcn 都是单个前馈网络,由整个骨架序列当作输出。这些办法很难提取出无效的时空特色,因为这些有用的信息通常被暗藏在与静止无关或未辨别的片段中。例如,在“踢某物”动作中,大多数片段是“直立站立”,而在“穿鞋”动作中,大多数片段都是坐在椅子上。因而,对于低层,单通前馈网络无法访问深层语义信息。同时,输出整个骨架序列减少了模型的计算复杂度。

​ 基于这一点,提出了一种新的神经网络,称为反馈图卷积网络(FGCN),以粗到精的渐进过程从骨架数据中提取无效的时空特色,用于动作辨认。FGCN 是第一个将反馈机制引入 GCNs 和动作辨认的工作。与传统的 gcn 相比,FGCN 具备多阶段的工夫采样策略,该策略将输出的骨架序列在时域内分为多个阶段,并从时域对输出的骨架片段进行稠密采样,防止了整个骨架序列的输出。对每一级输出的空时图像进行部分卷积提取。提出了一种基于反馈图卷积块(FGCB)交融部分特色的全局时空特色建模办法。FGCB 是一个部分浓密图卷积网络,每个级到下一级都有横向连贯,它将反馈连贯引入到传统的 gcn 中。从语义角度看,它是自上而下的工作形式,这使得低层卷积层可能在每个阶段拜访高层的语义信息。在时域上,FGCB 的反馈机制具备一系列因果关系,前一级的输入流入下一级,以调节其输出。

FGCN 的另一个长处是它能够在总推理工夫的一小部分工夫内提供输入的晚期预测。这在许多利用中都很有价值,例如机器人或主动驾驶,在这些利用中,延迟时间是十分要害的。晚期预测是所提出的多阶段从粗到细逐渐优化的后果。在晚期阶段,FGCN 只提供了一部分骨架序列,而且无关该行为的信息无限,因而其推断绝对毛糙。这些推理被视为在当前阶段领导特色学习的先验常识。在前期阶段,该模型接管到更残缺的行为信息和先前推理的引导者信息,从而输入更准确的推理。提出了几种时域交融策略,将部分预测交融到视频级预测中。这些策略使网络在渐进过程中失去优化。

办法

反馈图卷积网络

​ 传统的基于 GCNs 的动作识别方法都是在一个前馈网络中输出整个骨架序列。然而,当输出整个骨架序列时,有用的信息通常暗藏在与静止无关且无差别的片段中。单通前馈网络不能在浅层拜访语义信息。为了解决这些问题,提出了一种反馈图卷积网络(FGCN),该网络通过多级递进过程提取时空特色。具体地说,FGCN 设计了一种多阶段的工夫采样策略来从骨架数据中稀疏地采样一系列输出片段,而不是间接对整个骨架序列进行操作。这些片段首先被输出到图的卷积层中以提取部分时空特色。而后,提出了一种反馈图卷积块(FGCB),通过将前一级的高级信息传输到下一级来调制其输出,从而交融来自多个工夫阶段的部分时空特色。最初,提出了几种工夫交融策略,将所有工夫阶段的部分预测进行交融,给出一个视频级的预测。


反馈图卷积块(FGCB)

​ 反馈模块 FGCB 是 FGCN 模型的外围局部。一方面,FGCB 将高层语义信息传回低层,以细化其编码特色。另一方面,前一级的输入流入下一级,以调节其输出。为了使 FGCB 可能无效地将信息从高层传输到低层,以及从前一个阶段传输到下一个阶段,提出了一个密集连贯的部分图卷积网络,它减少了从每一层到所有后续层的连贯

试验

设计了四个融化试验来评估不同超参数、构造和输出对 FGCN 模型性能的影响。这些融化试验都是在 NTU-RGB+ D 上进行的

试验细节

​ 所有试验均采纳 PyTorch 深度学习框架实现。训练过程中采纳随机梯度降落(SGD)优化器,batch-size 为 32,momentum 为 0.9,初始学习率为 0.1。在第 40 和 60 个 epoch,学习率除以 10。训练过程在第 80 epoch 完结

​ 输出的视频在工夫上分为五个阶段,每个阶段随机抽取 64 个间断的帧组成一个输出片段。十个图卷积层重叠在反馈块 FGCB 的后面,这些层具备与 ST-GCN 中的图卷积层雷同的配置。FGCB 有四个图形卷积层(即 L =4), 将它们的时空核大小和输入通道别离设置为 ks=3、kt= 3 和 m =256


正文完
 0