关于视频编码:阿里云视频云人脸生成领域最新研究成果入选-CVPR2022

39次阅读

共计 1099 个字符，预计需要花费 3 分钟才能阅读完成。

CVPR（IEEE Conference on Computer Vision and Pattern Recognition）作为计算机视觉和模式识别畛域的顶级会议，在寰球具备极高的权威性。目前在中国计算机学会举荐国内学术会议的排名中，CVPR 为人工智能畛域的 A 类会议。

凭借在人脸生成畛域的扎实积攒和前沿翻新，阿里云视频云与香港科技大学单干的最新研究成果《基于生成反抗网络的深度感知人脸重演算法》(Depth-Aware Generative Adversarial Network for Talking Head Video Generation) 被 CVPR2022 接管。

而最新一届 CVPR 2022 也将于 2022 年 6 月 19 日 -24 日在美国路易斯安那州新奥尔良举办。

近年来，人脸重演（face reenactment/talking head）受到了越来越宽泛的关注，现有的人脸重演办法重大依赖于从输出图像中学习到的 2D 表征，而很少引入 3D 几何信息进行领导和束缚，导致生成人脸的构造、姿势和表情不够精确，泛化性较差，难以大规模利用于理论场景中。

阿里云视频云技术团队与香港科技大学联结提出一种具备深度感知的人脸重演算法。该算法的呈现，是人脸重演畛域的重大翻新，其学术和利用价值是值得期待的。尤其是在视频云畛域，该算法的利用无望使得音视频编解码的效率有着极大的冲破。

算法应用一种自监督的深度预计模型，无需任何 3D 标注，即可从视频中取得像素级深度图，进而领导人脸关键点的检测和运动场的合成。在人脸生成阶段，利用该深度图能够学习失去跨模态注意力图，以捕获更多动作细节并修改人脸构造。

因而，该项技术为在特定场景下的视频编解码提供了新的解决方案。例如在视频会议场景中，咱们的模型学习应用一张蕴含指标人物外观的源图像和一段驱动视频来合成人物头部谈话的视频。咱们的静止是基于一种新的关键点表标注进行编码的，咱们紧凑的关键点标注使视频会议零碎可能实现与商业 H.264 规范雷同的视觉品质，同时仅应用十分之一的带宽。即大幅度降低带宽要求时，仍可实现较高画质和低提早。

除此之外，该项技术可广泛应用于会议、直播场景或者元宇宙、虚拟人等互动娱乐场景中，可满足各场景中图片视频化的需要。即依照料想动作，驱动各类格调的人脸图片取得对应的视频。可见，利用该技术门路的冲破，灵便地利用到热点行业的业务门路中，将播种一股不可估量的助力。