关于计算机视觉:PoseFormer首个纯基于Transformer的-3D-人体姿态估计网络性能达到-SOTA

作者 | 郑策
编辑 | CV君
报道 | 我爱计算机视觉（微信id：aicvml）

本文分享一篇 52CV 粉丝的论文『3D Human Pose Estimation with Spatial and Temporal Transformers』。文中提出首个纯正基于Transformer 的架构，在不波及卷积的状况下在视频中实现3D人体姿势预计。算法在Human3.6M和MPI-INF-3DHP数据集上均达到SOTA performance，并在 in the wild 视频中有着不错的体现。

详情介绍如下：

论文作者：Ce Zheng, Sijie Zhu, Matias Mendieta, Taojiannan Yang, Chen Chen, Zhengming Ding
作者单位：北卡夏洛特分校；杜兰大学
论文链接：https://arxiv.org/abs/2103.10455
我的项目地址：https://github.com/zczcwh/Pos...

01简介

人体姿势预计在近年来受到宽泛的关注，并已被使用于人机交互，静止剖析，虚拟现实等工作中。3D人体姿势预计的办法次要分为两类：间接预计（Direct estimation）和 2D 到 3D (2D to 3D lifting) 。

其中 2D 到 3D 的办法先利用 SOTA 2D 人体姿势预计算法失去 2D 关键点，再通过神经网络预计 3D 人体姿势。基于其优异的体现，2D 到 3D 已成为支流办法。

与从单张图片中预计 3D 人体姿势相比，从视频中预计 3D 人体姿势能利用时序信息进行更精确的预测。然而支流办法大多利用时序卷积（Temporal convolutional network）来学习视频的时序信息，其体现往往受制于感触野的大小。

得益于 self-attention 机制，Transformer 能捕获长时序输出的外在关联，且不受制于其间隔。受此启发，咱们设计了一种不含卷积的时空 Transformer 的网络结构。

针对多帧输出，其中 spatial transformer 能提取每帧 2D 骨架中的人体关节分割，temporal transformer 能捕获多帧信息的工夫相关性，最初输入两头帧的精确3D人体姿势。

02办法

Spatial transformer module

受视觉Transformer（ViT）的启发，对于每帧图片已失去的2D骨架作为输出，spatial transformer把该帧的每个关键点当做一个patch，通过patch embedding和spatial positional embedding失去的高维特色，送入spatial transformer encoder来提取关键点之间的人体关节分割。

Temporal transformer module

相似的，每一帧图片通过spatial transformer module 提取高维特色后，将被看做temporal transformer的一个Patch。通过temporal positional embedding退出时序信息后，temporal transformer encoder会捕获多帧输出的工夫相关性，最终失去蕴含整个输出的时空信息的特色。

Regression Head

为了输入两头帧的3D人体姿势，本文应用一个加权均匀的操作失去属于两头帧的特色，而后通过MLP和LayerNorm 失去最终的输入。

03试验后果

本文在 Human3.6M 和 MPI-INF-3DHP 两个风行数据集上进行了试验，均失去最优后果。

同时比拟了在 Human3.6M 数据集下 3D 重建的视觉效果

最初本文展现了在任意视频下的3D人体姿势预计的成果

能够看到在户外，疾速挪动，高遮挡的状况下均能达到不错的成果。

视频解析：

更多的细节剖析请见原文，代码曾经开源，敬请关注加星，谢谢大家。

备注：姿势

姿势预计交换群

人体姿势预计、手势辨认等更多陈腐资讯，若已为CV君其余账号好友请间接私信。