关于计算机视觉:谷歌发布-MediaPipe-Holistic实现移动端同时进行人脸手部和人体关键点检测跟踪

作者：Ivan Grishchenko & Valentin Bazarevsky
编译：CV 君
报道 | 我爱计算机视觉（微信 id：aicvml）

谷歌 MediaPipe Holistic 为突破性的 540 多个关键点（33 个姿态、21 个手和 468 集体脸关键点）提供了对立的拓扑构造，并在挪动设施上实现了近乎实时的性能。

视频演示：https://v.qq.com/x/page/j3214…

在挪动设施上对人体姿态、人脸关键点和手部追踪的实时同步感知，能够实现各种乏味的利用，如健身和静止剖析、手势管制和手语辨认、加强事实成果等。

谷歌之前公布的 MediaPipe 就是一个专门为 GPU 或 CPU 而设计的开源框架，曾经为这些单个工作提供了疾速、精确而又独立的解决方案。

但将它们实时组合成一个语义统一的端到端解决方案，仍是一个难题，须要多个依赖性神经网络的同步推理。

不久前，谷歌公布了 MediaPipe Holistic，就是针对上述挑战而提出一个解决方案，提出一个最新最先进的人体姿态拓扑构造，能够解锁新的利用。

MediaPipe Holistic 示例

MediaPipe Holistic 由一个新的 pipelines 组成，该 pipelines 具备优化的姿势、人脸和手部组件，每个组件都实时运行，尽量升高内存传输老本，并依据品质 / 速度的衡量，减少了对三个组件互换性的反对。

当蕴含所有三个组件时，MediaPipe Holistic 为突破性的 540 多个关键点（33 个姿态、21 个手部和 468 集体脸关键点）提供了对立的拓扑构造，并在挪动设施上实现了近乎实时的性能！

MediaPipe Holistic 作为 MediaPipe 的一部分，并在挪动设施（Android、iOS）和桌面设施上提供。还将引入 MediaPipe 新的即用型 API，用于钻研 (Python 端) 和网页推理(JavaScript 端)，以不便更多人应用。

MediaPipe Holistic pipelines 集成了姿态、面部和手部组件的独立模型，每个组件都针对其特定畛域进行了优化，每个组件的推断输出图不同。

MediaPipe Holistic 首先通过 BlazePose 的姿态检测器和后续的关键点模型来预计人的姿态。而后，利用推断出的姿态关键点，为每只手和脸部推导出三个感兴趣区域（ROI）裁剪，并采纳 re-crop 模型来改良 ROI（详情如下）。

而后，pipelines 将全分辨率输出帧上裁剪这些 ROI，并利用特定工作的模型来预计它们对应的关键点。最初，将所有关键点与姿态模型的关键点合并，得出全副 540 多个关键点。

MediaPipe Holistic pipeline 概览

MediaPipe Holistic 应用姿态预测（在每一帧上）作为额定的 ROI 先验，来缩小对疾速静止做出反馈时 pipeline 的响应工夫。使得模型可能通过避免画面中一个人的左右手或身材部位与另一个人的左右手或身材部位之间的混同，来放弃身材及其部位的语义一致性。

此外，姿态模型的输出帧分辨率很低，由此产生的脸部和手部的 ROI 依然不够精确，无奈领导这些区域的重裁，这就须要准确的输出裁剪来放弃轻量化。

为了补救这一精度差距，作者应用轻量级的脸部和手部 re-crop 模型，这些模型表演了 Spatial Transformers（空间变换器）的角色，并且只破费了相应模型 10% 左右的推理工夫。

手部预测品质

MediaPipe Holistic 每一帧须要协调多达 8 个模型：1 个姿态检测器、1 个姿态关键点模型、3 个 re-crop 模型和 3 个手部和面部的关键点模型。

在构建过程中，作者不仅优化了机器学习模型，还优化了前解决和后处理算法（例如，仿射变换），因为 pipelines 的复杂性，这些算法在大多数设施上都须要大量的工夫。

这种状况下，将所有的前解决计算转移到 GPU 上，依据设施的不同，整体 pipelines 速度晋升了约 1.5 倍。

因而，即便在中端设施和浏览器中，MediaPipe Holistic 也能以靠近实时的性能运行。

应用 TFLite GPU 在各种中端设施上的性能，以每秒帧数（FPS）掂量

因为 pipeline 的多级性，性能又多两个长处。

因模型大多是独立的，因而能够依据性能和精度要求，应用不同计算量和复杂度的模型。

另外，一旦推断出姿态，人们就能准确地晓得手和脸是否在帧边界内，从而使 pipeline 能够跳过对这些身材部位的推断。

MediaPipe Holistic，领有 540 多个关键点，目标是为实现对身体语言、手势和面部表情的整体、同步感知。它的交融办法能够实现近程手势界面，以及全身 AR、静止剖析和手语辨认的性能。

为了展现 MediaPipe Holistic 的品质和性能，作者构建了一个简略的近程管制界面，该界面在浏览器中本地运行，无需鼠标或键盘，就能实现令人注目的用户交互。

用户能够对屏幕上的物体进行操作，坐在沙发上用虚构键盘打字，还能够指向或触摸特定的面部区域（例如，静音或敞开摄像头）。在依附精准的手部检测与后续的手势辨认映射到固定在用户肩部的 “ 触控板 “ 空间之下，可实现 4 米范畴内的近程管制。

当其余人机交互形式不不便的时候，这种手势控制技术能够开启各种新鲜的应用场景。

可在该 网站演示：https://mediapipe.dev/demo/ho…\_remote/

浏览器非接触式管制演示

作者心愿 MediaPipe Holistic 能够激发更多钻研人员能够构建出新的独特利用。并冀望这些 pipelines 为如手语辨认、非接触式管制界面或其余简单的用例开拓新途径。

开源地址：

https://github.com/google/med…

原文链接：https://ai.googleblog.com/202…