乐趣区

关于计算机视觉:PoseFormer首个纯基于Transformer的-3D-人体姿态估计网络性能达到-SOTA

作者 | 郑策
编辑 | CV 君
报道 | 我爱计算机视觉(微信 id:aicvml)

本文分享一篇 52CV 粉丝的论文『3D Human Pose Estimation with Spatial and Temporal Transformers』。文中提出首个纯正基于 Transformer 的架构,在不波及卷积的状况下在视频中实现 3D 人体姿势预计。算法在 Human3.6M 和 MPI-INF-3DHP 数据集上均达到 SOTA performance,并在 in the wild 视频中有着不错的体现。

详情介绍如下:

  • 论文作者:Ce Zheng, Sijie Zhu, Matias Mendieta, Taojiannan Yang, Chen Chen, Zhengming Ding
  • 作者单位:北卡夏洛特分校;杜兰大学
  • 论文链接:https://arxiv.org/abs/2103.10455
  • 我的项目地址:https://github.com/zczcwh/Pos…

                                            

01 简介

人体姿势预计在近年来受到宽泛的关注,并已被使用于人机交互,静止剖析,虚拟现实等工作中。3D 人体姿势预计的办法次要分为两类:间接预计(Direct estimation)和 2D 到 3D (2D to 3D lifting)。

其中 2D 到 3D 的办法先利用 SOTA 2D 人体姿势预计算法失去 2D 关键点,再通过神经网络预计 3D 人体姿势。基于其优异的体现,2D 到 3D 已成为支流办法。

与从单张图片中预计 3D 人体姿势相比,从视频中预计 3D 人体姿势能利用时序信息进行更精确的预测。然而支流办法大多利用时序卷积(Temporal convolutional network)来学习视频的时序信息,其体现往往受制于感触野的大小。

得益于 self-attention 机制,Transformer 能捕获长时序输出的外在关联,且不受制于其间隔。受此启发,咱们设计了一种不含卷积的时空 Transformer 的网络结构。

针对多帧输出,其中 spatial transformer 能提取每帧 2D 骨架中的人体关节分割,temporal transformer 能捕获多帧信息的工夫相关性,最初输入两头帧的精确 3D 人体姿势。

02 办法

Spatial transformer module

受视觉 Transformer(ViT)的启发,对于每帧图片已失去的 2D 骨架作为输出,spatial transformer 把该帧的每个关键点当做一个 patch,通过 patch embedding 和 spatial positional embedding 失去的高维特色,送入 spatial transformer encoder 来提取关键点之间的人体关节分割。

Temporal transformer module

相似的,每一帧图片通过 spatial transformer module 提取高维特色后,将被看做 temporal transformer 的一个 Patch。通过 temporal positional embedding 退出时序信息后,temporal transformer encoder 会捕获多帧输出的工夫相关性,最终失去蕴含整个输出的时空信息的特色。

Regression Head

为了输入两头帧的 3D 人体姿势,本文应用一个加权均匀的操作失去属于两头帧的特色,而后通过 MLP 和 LayerNorm 失去最终的输入。

03 试验后果

本文在 Human3.6M 和 MPI-INF-3DHP 两个风行数据集上进行了试验,均失去最优后果。

 

同时比拟了在 Human3.6M 数据集下 3D 重建的视觉效果

最初本文展现了在 任意视频下的 3D 人体姿势预计的成果

能够看到在户外,疾速挪动,高遮挡的状况下均能达到不错的成果。

视频解析:

<object width=”425″ height=”344″ data=”https://v.qq.com/x/page/p3237t60lgc.html”></object>

更多的细节剖析请见原文,代码曾经开源,敬请关注加星,谢谢大家。

备注:姿势

姿势预计交换群

人体姿势预计、手势辨认等更多陈腐资讯,若已为 CV 君其余账号好友请间接私信。

退出移动版