关于人工智能:人脸关键点的应用场景及重难点解析丨Dev-for-Dev-专栏

本文为「Dev for Dev 专栏」系列内容，作者为声网视频组 AI 算法工程师周世付。

人脸检测、人脸关键点检测，是计算机视觉的根底算法。许多酷炫利用背地，例如美颜、贴纸、人脸驱动 avatar，是依赖着人脸检测、人脸关键点检测的算法。

人脸检测的惯例做法，是从图像中找到人脸的地位并采纳矩形框的形式将人脸标示进去。因为人脸检测提供的信息比拟毛糙，要想获取更精密、具体的人脸信息，比方，人脸的脸型、嘴巴、眼睛、鼻子的地位和几何形态，就须要进行人脸关键点检测。

01 人脸关键点检测的技术原理

人脸关键点检测，也称为人脸关键点定位或者人脸对齐，是在人脸检测获取到人脸在图像中具体位置的根底上，进一步定位人脸器官的地位。

这些人脸器官地位信息，是一些具备明确语议定义的离散点，因而称为人脸关键点。通常，人脸关键点定义在人脸的脸颊、嘴巴、眼睛、鼻子和眉毛区域，将人脸关键点连接起来，可能描述人脸的几何特色。

人脸关键点的类型，可划分为 2D 关键点和 3D 关键点。2D 关键点，输入的是人脸关键点的 x、y 的坐标信息。罕用的 2D 关键点数量 5 点、68 点、106 点，随着技术的倒退及利用对人脸关键点提出更高要求，也呈现了 280 点甚至是 1000 点的人脸关键点计划。

3D 关键点，则输入关键点的 x、y、z 的坐标信息。3D 关键点的检测，是采纳 3DMM 模型，重建人脸的 3D mesh，再将 3D mesh 投射到 2D 的图像空间。因为 3D 关键点比 2D 关键点多了深度信息，在人脸姿势预计、3D 物体穿戴方面，劣势较为显著。

利用人脸关键点，能够定位嘴巴、眼睛、鼻子、眉毛的地位，以及推断脸型、嘴巴、眼睛的几何状态和头部的姿势。在不同的表情、姿势、光照和遮挡条件下，精确、疾速、稳固地定位人脸关键点，是一项极具挑战的工作。

02 人脸关键点检测的算法演进

人脸关键点检测的办法分为传统机器学习办法和深度学习办法。传统机器学习的办法，典开的代表包含 ASM（Active Shape Model）、AAM（Active Appearance Models）。

ASM 是由 Cootes 于 1995 年提出的经典人脸关键点检测算法，ASM 是一种基于点散布模型的算法，形状类似的物体的身材形态，可通过若干关键点的坐标顺次串联造成的一个形态向量示意。ASM 算法须要人工标定的办法事后标定训练集，经过训练取得形态模型，再通过关键点的匹配实现特定物体的匹配。ASM 算法的长处是模型简略，架构清晰，对轮廓形态有较强的束缚，但近似于穷举搜寻的关键点定位形式，限度了其运算的效率。

AAM 是 ASM 的进阶版，在形态束缚的根底上，退出整个脸部的纹理特色。传统机器学习的办法，检测的速度绝对较快，但关键点检测的精度无限，难以满足利用的要求。

深度学习办法，在关键点检测的精度上，碾压传统机器学习办法。基于深度学习的人脸关键点检测办法，大抵可分为两个流派：热力求办法和和间接回归办法。热力求办法，是每个关键点生成一个热力求，关键点处的值最大，离关键点越远，值越小。热力求办法，关键点检测的精度高，并可判断关键点是否被遮挡，对遮挡的鲁棒性较好。因为热力求大小通常是输出图像的 1/4，对内存的占用大。检测关键点的数量越多，内存占用越大，限度了热力求办法在端侧设施上的利用。间接回归办法，通过卷积神经模型预测关键点的坐标，内存占用小，关键点检测的精度较热力求办法差一些。因为间接回归办法内存占用小，检测速度快，在端侧设施上的利用前景广大。

03 人脸关键点的利用

人脸关键点的应用领域非常宽泛，次要利用方向可划分为 4 类：人脸姿势对齐、人脸美颜、人脸贴纸和 avatar 模型驱动。

人脸姿势对齐，在人脸识别畛域，同一个 ID 的人脸在不同姿势下，人脸的类似度变动较大，人脸识别的精度不同。为了进步人脸识别的精度，须要将不同姿势的人脸，对齐到一个中立的姿势。这个对齐的操作，依赖人脸关键点提供的地位信息。人脸姿势对齐，对关键点的精度和数量，要求不高，通常只须要 5 个关键点，定位眼睛、鼻子和嘴巴。

美颜，作为当今社交 app 中不可或缺的基本功能，发个朋友圈、开个直播前，不须要花工夫化个妆，只需关上美颜，即可霎时晋升集体的颜值，将本人最美的一面浮现给敌人或观众。美颜的品种繁多，形形色色，大抵能够分为大类：1) 美型，调整脸颊、眼睛的形态，行将圆脸调整为修长的瓜子脸，把眼睛调大，达到大眼、瘦脸的成果；2) 磨皮，目标是将脸部的皱纹、痘印、斑点去除，晋升皮肤的平滑度和光泽度。脸部不同区域，对磨皮水平的需要不一样，例如眼睛区域需放弃清晰通透，磨皮水平要低一些或不磨皮。3) 美妆，是将化妆品的成果，交融到用户的脸上，以视频或图像的形式，出现给用户，从而可让用户无需到线下门店体验试妆成果，线上就能体验到化妆品在本人脸上的成果。美颜，对人脸关键点检测的精度和数量，要求很高。在关键点精度方面，对眼睛、嘴唇的定位精度尤为高；关键点数量方面，则是越多越好。

贴纸，是将电子的道具，如眼镜、帽子、假发、皇冠、项链、耳环等，“穿戴”到用户的脸上或头部，为用户定制个性化的形象。手机相机、社交 app 提供了各种各样的道具，供用户抉择。

贴纸，对人脸关键点的要求，没有美颜高，但高精度的人脸关键点，对贴纸的成果，是有帮忙的。

人脸驱动 avatar，近年来元宇宙、虚拟人、卡通人物的概念层出不穷，其背地的技术实质是如何将天然图像中实在人脸的表情、姿势等信息，迁徙到 avatar 模型，驱动 avatar 维妙维肖地“模拟”真人。人脸关键点，作为无效的人脸信息载体，可进一步提炼出合乎 avatar 模型的语议信息，从而驱动 avatar。人脸驱动，对人脸要害的要求是最高的。人脸关键点的散布，除了定位脸颊、眉毛、眼睛、鼻子、嘴巴外，还要求定位脸颊部位。另外，人脸关键点定位越精准，捕获人脸的微表情越精密，avatar 才越活泼。

04 人脸关键点算法面临的挑战

人脸关键点检测算法，在理论利用过程中，面临着诸多的挑战，须要解决的问题，具体表现为：

1、在不同人脸姿势、光照条件、脸部被遮挡时，关键点定位要精确；

2、间断视频帧检测，帧间关键点的抖动，要在可控范畴或被打消；

3、检测速度够快，可在端侧设施实时运行。

为了达到更精确的关键点定位，学术界通常采纳基于热力求的办法，采纳更大更深的模型，但其代价是模型对算力要求高，无奈在端侧设施实时运行。其次，为了满足不同条件下，关键点定位精确，业界通常会自建大规模的训练集。

为了满足美颜、贴纸、avatar 驱动利用对人脸关键点的精度的要求，声网自建了大规模的人脸关键点数据集。人脸关键点的数据集建设过程中，充分考虑了以下几个因素：

1、在数据采集设施方面，笼罩了各种类型手机的前置/后置摄像头、不同类型的笔记本摄像头和 USB 摄像头。

2、不同光线条件下采集人脸图像，包含强光、暗光、背光等条件。

3、多个角度、姿势、变换远近拍摄人脸图像。

4、穿戴不同的遮挡物进行人脸图像拍摄，包含眼镜、口罩、帽子，以及手部遮挡嘴巴、脸颊、眼睛。

5、人工标注人脸关键点，并对标注精度进行二次人工审核，确保人工标注的关键点是精确的。

05 声网人脸关键点算法

声网自研的人脸关键点算法，利用深度学习技术，设计了轻量级模型，满足挪动端设施实时运行的要求，其具备如下几个特点：

1、反对 106 个关键点的检测，关键点笼罩了脸颊、嘴巴、鼻子、眼睛、眉毛区域，可能满足大多数利用对关键点的点数要求。

2、推理速度快，在挪动端设施可实时。联合人脸检测和人脸关键点检测的推理，耗时管制在 10ms 以内，为其它实时利用提供充裕的工夫余量。

3、反对人脸姿势的欧拉角预测。

4、反对眼球跟踪。

5、反对关键点防抖性能，保障在视频中放弃关键点既精准又稳固。

声网人脸关键点算法，为美颜、贴纸、avatar 等利用提供根底的技术能力，联合声网的 RTC 技术，可为开发者提供更加齐备的解决方案。点击浏览即可进一步理解详情。

关于人工智能:人脸关键点的应用场景及重难点解析丨Dev-for-Dev-专栏

01 人脸关键点检测的技术原理

02 人脸关键点检测的算法演进

03 人脸关键点的利用

04 人脸关键点算法面临的挑战

05 声网人脸关键点算法

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于人工智能:人脸关键点的应用场景及重难点解析丨Dev-for-Dev-专栏

01 人脸关键点检测的技术原理

02 人脸关键点检测的算法演进

03 人脸关键点的利用

04 人脸关键点算法面临的挑战

05 声网人脸关键点算法

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复