乐趣区

关于计算机视觉:CVPR2022-前沿研究成果解读基于生成对抗网络的深度感知人脸重演算法

凭借在人脸生成畛域的扎实积攒和前沿翻新,阿里云视频云与香港科技大学单干的最新研究成果《基于生成反抗网络的深度感知人脸重演算法》(Depth-Aware Generative Adversarial Network for Talking Head Video Generation)被 CVPR2022 接管。本文为最新研究成果解读。

论文题目:《Depth-Aware Generative Adversarial Network for Talking Head Video Generation》
arxiv 链接:https://arxiv.org/abs/2203.06605

人脸重演算法将使视频编解码有新冲破?

近年来随着视频直播的大火,越来越多的人开始关注视频云畛域。而视频传输的低提早,高画质,始终是难以均衡的两个点。以后直播延时最低能够降到 400ms 以内,然而在视频会议等各场景的需要一直减少的状况下,比方近程 PPT 演示,咱们对画质和提早的均衡有着更高的要求。而冲破直播提早的要害是编解码技术的晋升,人脸重演算法与编解码技术的联合,在视频会议场景的利用中将使带宽需要大幅缩小,而取得更具身临其境的体验,这是迈向超低延时优画质视频会议十分重要的一步。

人脸重演(face reenactment/talking head)算法是指,利用一段视频来驱动一张图像,使图像中的人脸可能模拟视频中人物的面部姿势、表情和动作,实现动态图像视频化的成果。

图 1

人脸重演倒退现状

目前的人脸重演办法重大依赖于从输出图像中学习到的 2D 表征。然而,咱们认为浓密的 3D 几何信息(例如:像素级深度图)对于人脸重演十分重要,因为它能够帮忙咱们生成更精确的 3D 人脸构造,并将噪声和简单背景与人脸辨别开来。不过,浓密的视频 3D 标注代价昂扬。

钻研动机 & 翻新点

在本文中,咱们介绍了一种自监督的 3D 几何学习办法,能够在不须要任何 3D 标注的状况下,从视频中预计出头部深度(depth maps)。咱们进一步利用深度图来辅助检测人脸关键点,从而捕获头部的静止。此外,深度图还用于学习一种 3D 感知的跨模态注意力(3D-aware cross-model attention),以领导运动场(motion field)的学习和特色的形变。


图 2

图 2 展现了本文提出的 DA-GAN 的 pipeline,它次要蕴含三局部:

(1)深度预计网络 \(F_d \),咱们通过自监督的形式预计浓密的人脸深度图;

(2)关键点检测网络 \(F_{kp} \),咱们将由深度图表征的 3D 几何特色与由 RGB 图的外观特色进行拼接,以预测更为精确的人脸关键点;

(3)人脸合成网络,它又能够分为一个特色形变模块和一个跨模态注意力模块。

特色形变模块将输出的稠密关键点转化为稠密运动场(sparse motion field),随后学习失去浓密运动场(dense motion field),并用其对图像特色进行扭曲(warping)。

跨模态注意力模块利用深度特色学习失去注意力图(attention maps),以捕获更多动作细节并修改人脸构造。两个模块的构造可见图 3 和图 4。


图 3


图 4

试验后果

定量试验

咱们在 VoxCeleb1[1] 和 CelebV[2] 数据集上进行了试验。

咱们应用 structured similarity (SSIM) 和 peak signal-to-noise ratio (PSNR) 来评估后果帧和驱动帧的类似度;

应用 average keypoint distance (AKD) 和 average euclidean distance (AED)[3] 来评估关键点的准确性,应用 CSIM[4] 来评估身份放弃;

应用 PRMSE 来评估头姿放弃,应用 AUCON 来评估姿势放弃。

定量比照


表 1


表 2


表 3

表 1 和表 2 是 DA-GAN 与支流人脸重演办法在 VoxCeleb1 数据集上的定量比照,表 3 是 DA-GAN 与支流人脸重演办法在 CelebV 数据集上的定量比照。

定性比照

图 5 是 GA-GAN 与支流人脸重演办法的定性比照。试验表明,本文提出的 DA-GAN 在各项指标以及生成成果上上均优于其它算法。


图 5

融化试验(Ablation study)

图 6 是 ablation study 的后果,能够看到,自监督深度预计和跨模态注意力模块都显著晋升了合成人脸的细节和微表情。


图 6

钻研总结

通过以上的的后果,能够看出人脸重演算法能够实现更为精密的人脸细节和微表情合成。在视频会议场景中,用 talking head 的办法,在通信过程中能够只传输关键点坐标,而不须要传输每帧图像,在接收端能够通过输出关键点复原每一帧的图像,大幅升高带宽需要,从而取得画质低劣的低延时视频会议体验。

「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实际技术文章,在这里与音视频畛域一流工程师交换切磋。公众号后盾回复【技术】可退出阿里云视频云产品技术交换群,和业内大咖一起探讨音视频技术,获取更多行业最新信息。

退出移动版