关于音视频:人像分割技术解析与应用

48次阅读

共计 2720 个字符，预计需要花费 7 分钟才能阅读完成。

一、抠图简介

抠图次要解决的是图像中前景和背景区域的精确预测问题，对于图像编辑和影视制作有着及其重要的实际意义。所以精确无效的抠图算法能够极大的改善内容生产的工作流程，从而节俭大量的人力物力来进步工作效率。

抠图作为一个根本的计算机视觉问题，在很多畛域都有着很多的利用。

而对于抠图的传统办法通常是基于 trimap（三值图）对前景、背景和 alpha 进行预计，但当图像中的前景和背景色彩类似或有着比较复杂的纹理时，传统算法很难获得比拟好的成果。所以传统办法的局限次要在于参考的都是低级的色彩、纹理和结构特征不足高级的语义信息。

随着近年来深度学习技术获得的微小倒退，其弱小的高级特征提取能力恰好解决了传统技术的弊病。ZEGO 即构科技应用深度学习技术解决图像、视频等抠图工作并在多个业务场景中进行了宽泛的利用。本篇文章咱们将率领大家次要理解对于抠图在人像宰割方向的技术实现过程与场景利用介绍！

二、抠图技术原理解析

抠图实质上就是精细化的宰割，因而其重点还是在如何获取高质量的透明度掩膜（alpha 图）上。

对于抠图而言，能够用以下公式进行概括：

其中 Ri 示意最终的后果，Ai 示意抠图所需的透明度掩膜，Bi 示意须要替换的新背景。在 Ai 中，前景地位的值是大于 0 的，而背景地位的值等于 0。

如公式所示，抠图算法的难点次要在于只晓得每个像素的 RGB 值但却要对前景的 RGB、背景的 RGB 以及透明度 ALPHA 等 7 个未知值进行预计。

传统算法大多通过 trimap（手工绘制）的形式来生成 alpha 图。trimap 中蕴含了 3 种不同的像素值，其中像素值为 0 的地位示意是确定的背景，像素值为 1 的地位示意的是确定的前景，而像素值为 0.5 的地位示意的是未知区域，这部分地位既可能是前景也可能是背景，而抠图算法要解决的就是在未知区域中通过 random walking、knn、closed form 等等办法求解出前景和背景

trimap 生成 alpha 图

trimap 的绘制须要用户具备肯定的教训常识，因而不具备普适性。同时 trimap 因为须要进行人机交互，因而也不具备实时性。

ZEGO 即构科技为了解决上述问题，采纳深度学习的形式研发抠图算法。该算法整体采纳 encoder、decoder 构造，只需输出一张待抠图图像就能生成最终的 alpha 图。

编码解码器构造

该构造可能对输出图像进行编码压缩并提取其深度特色，最终通过解码器解码去拟合实在的 alpha 图样本。咱们的 encoder 采纳轻量级的 mobilenetV3_small 架构，可能在边缘设施上进行实时的计算。

数据对于深度学习而言至关重要。咱们应用公开数据集以及大量的网络图片构建了一个 40 万规模的抠图数据集，其中的 alpha 图全副通过 photoshop 等业余软件手工获取。该数据集包含了各种日常场景下的半身、全身人像，单个或多集体像指标以及各种姿势下的人像。

为了解决视频抠图中的闪动和误差问题，咱们在本人的网络结构中退出了工夫序列信息，下一帧的解决会参考上一帧的后果并进行修改。

编辑

t 时刻 t+ 1 时刻 t+ 2 时刻

时序信息对误差进行修改

同时为了可能在端侧设施进行实时推理并放弃较好的成果，咱们将网络结构分成了两个分支，其中一个分支只蕴含大量的卷积算子以便对高分辨率输出提取特色，另一个分支对原始输出进行下采样后，利用 encoder-decoder 构造对低分辨率信息进行压缩和提取，最初对两个分支的输入进行交融并生成最终的后果。

整体算法流程

为了防止过拟合以及取得更好的泛化性能，训练策略咱们采纳宰割数据和抠图数据混合训练形式。在每个奇数次迭代时，应用 COCO、YouTubeVIS 2021、Supervisely Person Dataset 等公开的宰割数据集进行训练，其余迭代应用本人的大规模数据集进行训练。学习率的更新采纳余弦退火重启形式，防止网络陷入部分最长处并放慢训练速度。

针对不同的平台咱们设计不同规模的模型来针对不同抠图工作。离线解决或服务端咱们采纳规模更大的模型来获取更精细化的后果而挪动端则应用小模型来取得推理速度和精度的均衡。

ZEGO 小模型抠图算法细节展示

从上图能够看出，通过和友商的人像抠图比照，即构的算法在头发丝这些精密场景的解决下可能保留更多的细节。

三、人像宰割场景利用

1、证件照背景替换

日常生活中，咱们常常须要用到各种各样的证件，例如红底、蓝底、白底等，然而针对不同证件的需要去照相馆屡次拍摄须要破费肯定的经济与工夫老本。当然市面上有很多业余的图像处理软件，然而对于普通人而言，业余软件的学习还是存在肯定的学习门槛。

ZEGO 即构科技的 AI 智能证件照抠图算法无需用户具备业余软件的应用常识，依据人脸关键点检测主动对原始图像进行头肩像裁剪，随后利用抠图算法实现任意色彩背景的替换。咱们的算法具备轻量级的特点，整个模型文件只有 6MB，在 CPU 环境下进行一张证件照抠图只须要 100ms 的工夫。

2、线上艺考背景虚化

在一些线上考试场景例如舞蹈、声乐、播音等艺考场景的背景中，通常会呈现一些横幅、广告或其余与考试无关的信息，特地是在舞蹈和声乐的线上考试中须要特地留神这个问题，要放弃画面的完整性和立体感，还要使得评审老师能更关注于考试内容自身，这就须要一些针对人像的抠图算法，然而个别的算法非常容易将乐器、舞蹈道具、舞蹈服（次要是一些奇装异服）给抹掉，因而间接替换背景是行不通的。

ZEGO 即构科技提出了背景虚化的计划，该算法在抠出人像的同时，会对背景画面进行含糊解决。该算法参考了视频帧之间间断的时序信息，对画面闪动有很好的抑制性。

该算法的整个模型文件只有 3MB，具备极轻量化的特点，在 M1 芯片的 Mac Book Pro 上解决一帧画面只须要 20ms 的工夫。

3、游戏主播背景替换

游戏主播一边共享本人的游戏画面另一边开启本人的摄像头和观众互动曾经成为当今的支流玩法，游戏直播的内容诚然重要，但主播和观众良性的互动更能升高观众的流失率。然而游戏主播的直播地点大多都在本人的家中，对隐衷窃密有着肯定要求。

ZEGO 即构科技的抠图算法可能疾速的提取人像，并应用任意图片作为背景，从而很好的爱护用户隐衷。

更换背景后爱护了用户隐衷

四、结尾

通过上文的介绍，咱们理解到了抠图在人像宰割方向的技术实现原理与常见利用场景，通过人像宰割技术，能够更好的爱护用户隐衷，展示重点场景。

ZEGO 即构科技通过深度学习技术解决图像、视频等抠图工作并在多个业务场景中进行了宽泛的利用，尤其是在一些精密场景下，比方头发丝的细节解决，也有很好的成果体现！

正文完