关于人工智能:声网Agora-Lipsync-技术揭秘通过实时语音驱动人像模拟真人说话

58次阅读

共计 3607 个字符,预计需要花费 10 分钟才能阅读完成。

元宇宙的炽热让人们对将来虚拟世界的状态充斥了空想,此前咱们为大家揭秘了 声网自研的 3D 空间音频技术 如何在虚拟世界中完满模仿事实听觉体验,减少玩家沉迷感。明天咱们临时来到元宇宙,回到事实世界,来聊聊声网自研的 Agora Lipsync(唇音同步)技术是如何实现无需关上摄像头,无需面部捕获技术,只需上传一张 / 多张人脸头像就能够通过谈话人的语音音频信号,就能驱动动态人脸头像的嘴部静止。

在介绍 Agora Lipsync 技术前,咱们先来简略理解下目前行业比拟相似的两类技术:

  • Oculus Lipsync,Oculus Lipsync 是一种 Unity 集成,用于将虚构角色的唇部动作同步至语音。它次要是离线或实时剖析音频输出,而后预测用于令虚构角色或非玩家角色(NPC)嘴唇动画化的一组发音嘴型,为了晋升音频驱动面部动画的准确性,Oculus Lipsync 利用一个神经网络模型来学习语音和音素之间的映射关系。通过模型把输出音频转为音素,音素可能对应到特定的视觉音素,再基于 Unity 集成技术实现虚构角色嘴唇和面部的姿态和表白。该技术次要利用于虚构主播与游戏畛域。
  • 面部捕获技术,在当下很多发布会与流动会议都使用到了全息影像,嘉宾在舞台之外身穿特定的硬件设施,他的肢体动作与演讲的嘴型动作都会实时同步在舞台大屏幕中的虚构形象中,其中想要实现唇音同步,就须要使用到要害的面部表情捕获技术与相干的硬件设施。

相比这两种技术,声网的 Agora Lipsync 有着外围区别,Agora Lipsync 无需摄像头、无需面部表情捕获技术,而是通过深度学习算法中的生成反抗网络,将中英文(或其余语种)发音的嘴型、面部表情智能关联起来,驱动人像模仿真人谈话嘴型,反对 2D 人像图片和 3D 人像模型。

接下来,咱们将重点揭秘 Agora Lipsync 实现语音驱动嘴型静止背地的技术原理。

生成反抗网络 + 模型轻量化实现语音信号驱动人像嘴型静止

语音驱动嘴型技术,顾名思义,通过谈话人的语音音频信号,来驱动动态人脸头像的嘴部静止,使得生成的人脸头像嘴部状态与谈话人的语音高度匹配。实时语音驱动人脸图像谈话这项技术的实现须要克服诸多挑战,首先要找到语音信息和人脸信息之间的对应关系,音素是咱们人谈话的最小可发音单元,能够通过音素去找到对应的嘴型,然而收回雷同音素的嘴型状态不止一个,再加上不同的人面部特色、谈话状态也会存在差别,所以这是一个简单的一对多问题。其次还会面临一些其余挑战,包含生成的谈话人脸是否失真,以及谈话人脸嘴型变动是否晦涩等等。此外,如果是在低延时的实时互动场景下应用,还须要思考计算量复杂度等问题。

■图 1:例如 a 这个音素,发音的嘴型张合水平都不是惟一的

传统的 Lipsync(唇音同步)办法能够通过语音解决联合人脸建模的形式实现,然而语音可能驱动的口型数量往往比拟无限,而声网的 Agora Lipsync 通过深度学习算法,能够实现实时生成谈话人脸图像。目前,深度学习算法随着数据规模的减少一直晋升其性能,通过设计神经网络能够从数据中主动提取特色,削减了对每一个问题手动设计特征提取器的工作。深度学习目前曾经在计算机视觉、自然语言解决等多个畛域大放异彩。

在实现语音驱动人脸图像工作中,咱们须要将语音一维信号映射到图像二维像素空间。声网应用了深度学习中的生成反抗网络(GAN),GAN 的思维来自零和博弈实践,由两个局部组成,一个是生成器 Generator,接管随机噪声或者其余信号用来生成指标图像。一个是判断器 Discriminator,判断一张图像是不是“实在的”,输出是一张图像,输入是该图像为实在图像的概率。生成器的指标是通过生成靠近实在的图像来坑骗判断器,而判断器的指标是尽量分别出生成器生成的假图像和实在图像的区别。生成器心愿假图像更真切判断概率高,而判断器心愿假图像再真切也能够判断概率低,通过这样的动静博弈过程,最终达到纳什均衡点。大自然里就存在很多生成反抗的例子,在生物进化的过程中,被捕食者会缓缓演变本人的特色,从而达到坑骗捕食者的目标,而捕食者也会依据状况调整本人对被捕食者的辨认,独特进化。

基于 GAN 的深度神经网络训练实现之后,生成器能够将输出信号转化并生成真切的图像。对此,声网设计了针对语音驱动图像工作的深度学习模型,利用大规模视频语料数据,使得模型能够依据输出的语音生成谈话人脸。模型外部对输出的语音与图像两种不同模态的信号进行特征提取,失去相应的图像隐向量与语音隐向量,并进一步学习到两种跨模态隐向量之间的隐式映射关系,从而依据这种关系将隐向量特色重建成为和原始音频相匹配的谈话人脸图像。除了生成图像是否真切,还要思考时序稳定性和音画匹配度,对此咱们设计了不同的损失函数在训练中加以束缚。整个模型推理计算过程是端到端实现的。

同时,Agora Lipsync 还适配中、日、德、英文等多语种语音以及多种肤色人群,满足不同国家与地区的用户体验。

咱们能够通过下方的图 2 更直观的理解生成反抗网络是如何端到端地学习生成谈话人脸头像。

图 2 能够分为 4 个流程:

1、深度学习模型中的 Generator 生成器接管一张人脸图像和一小段语音,通过生成器外部的特征提取与解决生成一张伪造的人像图片(Fake image)。

2、图中的“Real Data”指的是用于训练的视频序列,从中取出和 Audio 相匹配的指标图像。将指标图像和 Generator 生成的 Fake Image 比拟它们的差别,依据损失函数通过反向流传进一步更新生成器中的模型参数,从而让生成器学习得更好,生成更加真切的 Fake Image;

3、比拟差别的同时,将 Real Data 中的指标图像与 Fake Image 输出到 Discriminator 判断器中,让判断器学习辨别真伪;

4、整个训练过程中生成器与判断器互相反抗,互相学习,直到生成器和判断器的性能达到一种均衡状态。最终生成器将会生成更为靠近实在人脸嘴型状态的图像。

■图 2:生成反抗网络如何生成对应的人脸图像

深度学习模型能够端到端的生成谈话人脸图像,然而往往计算量和参数量较大,因为存储和功耗的要求,在低资源下实时利用该算法依然具备肯定的挑战性。目前罕用的一些模型轻量化技术有人工设计轻量化构造、神经架构搜寻、常识蒸馏以及模型剪枝等等。在 Agora Lipsync 的语音驱动嘴型工作中,声网设计的模型实质上是一个图像生成模型,体量绝对较大,咱们通过模型轻量化技术,设计了端到端的轻量化语音驱动图像模型,只须要传输语音流就可驱动动态图像生成谈话人脸,在保障成果的根底上大大地放大了模型的计算量和参数量,从而满足挪动端的落地需要,通过输出语音信号,可能实时驱动一张静止人脸图像产生嘴部静止,达到音画同步的成果。

介绍完 Agora Lipsync 的技术原理,咱们再来看它的利用场景有哪些,相比于元宇宙虚拟世界与实在的视频社交场景,Agora Lipsync 填补了在语音社交场景,不关上摄像头,却能体验真人视频连麦既视感的场景玩法空白,在语聊房、互动播客、视频会议等场景中具备微小的利用价值。

语聊房:在传统的语聊房中,用户通常会抉择真人头像或者虚构的头像进行语音连麦,往往须要通过有话题性、趣味性的聊天内容能力保障语聊房间的内容品质与时长性,而通过退出语音驱动嘴型静止的技术,能够在模式上让聊天过程更具生动性与趣味性,对于不想关上摄像头的玩家,能够抉择一张本人难看的或者搞怪的照片作为头像,这样大家不关上摄像头,也能看到彼此的人脸头像好像在实在的谈话,最终减少了玩家在语聊房中进一步聊天的能源。

互动播客:去年以 Clubhouse 为代表的互动播客平台曾风靡寰球,相比传统的语聊房,互动播客平台的话题内容、用户关系有着显著的差异,播客房间的聊天话题次要以科技、互联网、职场、守业、股市、音乐等话题为主,用户上传本人真人头像的志愿也十分高,通过退出语音驱动嘴型静止技术,能够让用户之间的聊天更具参与感与真实感。

视频会议:在视频会议场景中往往都会要求参会用户尽量都关上摄像头,然而常常会遇到局部用户不不便关上摄像头,造成有人开视频、有人开语音的会议场景,通过 Agora Lipsync 一方面能够让无奈关上摄像头的用户防止难堪,通过驱动人脸头像的嘴部静止营造出好像是真人加入视频会议的场景感。另一方面,通过语音驱动人脸谈话的形式,视频会议传输能够不必传输视频流,只须要语音流,特地是在弱网条件下,不仅防止了画面卡顿或提早,同时也缩小了传输老本。

目前 Agora Lipsync 技术次要反对 2D 人像图片和 3D 人像模型,将来在声网算法团队的继续钻研下,该技术也将进一步降级,不仅能够反对卡通头像,还有望通过语音进一步驱动头部、眼睛等器官的静止,实现更宽泛的利用场景与场景价值。

如您想进一步征询或接入 Agora Lipsync 技术,可点击「浏览原文」留下您的信息,咱们将与您及时分割,做进一步的沟通。

正文完
 0