关于人工智能:如何基于实时声纹变声实现对声音的克隆

8次阅读

共计 4086 个字符,预计需要花费 11 分钟才能阅读完成。

说到声音变声,很多人最早的记忆是《名侦探柯南》中柯南的领结变声器,小时候还曾空想领有这样一款神器,那肯定很酷。而在互联网时代,这种空想曾经成真,随着很多变声软件的利用,咱们常常能够在社交、游戏场景中听到玩家通过变声软件收回与性别、年龄相同的声音。不过,这种变声器往往是将一个人的声音变换成某一种类型的声音,例如男声变成萌妹子的声音,无奈像柯南那样将本人的声音变成特定某个人的声音,并不是真正意义上的声纹变声。

由声网音频技术团队研发的 「实时声纹变声」将颠覆传统的变声音效软件与 AI 实时变声体验,通过提取语音的音素特色与声纹特色等一系列技术手段,在实时音视频互动中能够将任意用户的语音实时变换成指定或任意一个别人的语音,实现像柯南变声器那样对声音的真正“克隆”,接下来咱们将别离介绍传统支流变声办法与实时声纹变声背地的技术原理。

01 什么是声纹变声?

在介绍变声之前,咱们先回顾一下语音的产生与感知过程。在谈话时,咱们将本人思维对应的文字,通过发音器官 (如肺、喉咙和声道) 一起合作,产生含有特定语义的声波信号。因为每个人的发声器官、语言习惯、发音大小、基频等差别,每个人的声纹图谱都是举世无双的,就像指纹一样,因而人们能够通过听觉零碎分别一个人的身份信息。事实上,在感知层面,人们能够很轻松地拆散出一段语音的语言学内容(文字)以及谈话人的音色信息(声纹)。

声纹变声是指对一段语音的音色做替换,让它听下来像是另一个人在讲同样的内容。声纹变声的处理过程蕴含语音的感知拆散以及合成两个步骤。首先,声纹变声零碎中的语音辨认模块会将承受的语音中的语言学信息以及谈话人音色信息拆散。而后,语音合成模块将指标谈话人的声纹与后面提取的语言学内容从新合成新的语音,从而实现音色的变换。

介绍完声纹变声的基本原理,咱们再来看看传统的变声办法有哪几种,它们又是基于怎么的技术原理实现的?

1、传统的音效效果器:晚期的变声个别采纳多个音效效果器串联的形式来从各个维度来批改人声。常见的变声效果器包含变调效果器、均衡器、混响效果器、共振峰滤波器等,变调效果器通过扭转声音的音调来实现变声成果,比方把男声变成女声就须要把音调进步,电影《小黄人大眼萌》中“小黄人”的声音就是通过变调算法把本来男声的音调进步来实现的。均衡器和共振峰滤波器通过扭转人声每个频段的能量散布来扭转音色,较高的值可让声音听起来更清脆或清脆,较低的值可赋予深厚、浑厚的个性。混响效果器则是扭转人声所在空间的混响成果。

但这些效果器的形式通用性较差,每个人变成一个指标人的音色都须要从新调整参数,而且语言中每个音的发音变化趋势也不尽相同,采纳同一组参数调整的效果器可能只对某些发音是正确的,这就使得很多变声成果非常不稳固。咱们在文章结尾提到的在社交、直播场景中很多主播应用的软件变声效果器或者娱乐声卡上自带的变声成果大多是这类形式,这类形式尽管能够做到“实时”,但因为采纳的是传统的链路效果器,非声纹变声,不仅变声成果不稳固,变声的音效也十分局限,不能任意变换成某个指定人的声音。

2、AI 变声算法:AI 技术的倒退为传统变声效果器须要对每个人、每个音进行独自调整的繁琐流程找到了破解形式。晚期 AI 变声算法次要是基于统计模型,其核心思想是寻找一种谈话人语音到指标语音在频谱上的映射关系,模型须要在平行语料上训练。所谓平行语料,就是谈话人说的每一句话,变声指标人都要有一句同样内容的语料。平行语料的训练样本由具备雷同语言学内容的原始语音和指标语音组成。尽管基于这个框架的模型在变声上获得了肯定胜利,然而这种配对的数据比拟稀缺,而且很难无效拓展到多谈话人变声的场景。

而近几年的支流的 AI 变声算法通过非并行训练框架无效地解决了这些问题,并且极大地丰盛了变声的利用场景,比方音色,情绪以及格调的迁徙等等。非并行训练方法的核心思想是将语音的语言学特色以及非语言学因子(例如音色、音调)解除耦合关系,而后再将这些因子重新组合生成新的语音。它不依赖于配对的语音语料,极大地升高了数据获取老本。同时,这个框架也非常有利于常识迁徙,能够利用一些在海量数据上预训练好的语音辨认以及声纹识别模型用于语言学内容与声纹特色的提取。

随着深度学习的倒退,以后基于 AI 的变声算法品种越来越多,它们相较于传统的变声办法在指标音色类似度以及天然度上都具备显著的劣势。依照单个声纹变声模型反对的原说话人和指标谈话人的数目,能够分为 one-to-one, many-to-many, any-to-many, any-to-any,其中,one 代表繁多的音色,many 代表一个无限的汇合,只能变成少数几种指定的音色。晚期的学术研究次要是基于 one-to-one 与 many-to-many 架构,any-to-many 是以后很多 AI 变声软件采纳的模型,例如在某变声软件中,任意用户能够从十几个声音音效中抉择某一个进行变声。

而 any 是一个凋谢的汇合, any-to-any 意味着能够将任意一个人的语音,变换成任意一个其他人的语音,这代表着声纹变声技术的终极目标,每个人都能够借助它变换成指定或任意一个人的声音,实现对声音的“克隆“,这也是「声网实时声纹变声」想要实现的方向。

从 any-to-many 到 any-to-any,实时声纹变声需克服多重挑战

以后,支流的声纹变声借助 AI 变声算法尽管能够实现 any-to-many 的变声音效,但声纹变声的钻研次要集中在离线或异步应用的场景,例如本人提前用变声软件录一段声音,生成某个指定指标的变声语音后再发给对方。依据考察显示,在社交、直播以及元宇宙等场景中,越来越多的玩家心愿在进行音视频互动时能实现实时变声音效的性能,在声网看来,在实时互动的过程中,声纹变声想要做到实时会面临多重挑战:

  • 语言学内容完整性:在实时互动过程中,谈话人局部词语的失落或者发音谬误,不仅会让听者了解起来非常吃力,而且一些关键词(比方 ” 不 ”)的失落,还会引起全局语义扭转,给互动带来致命的影响。
  • 实时率:实时率指的是模型对一段音频的解决工夫和音频时长的比值,越低越好。例如解决一段时长为 2 分钟的语音花了 1 分钟,那么实时率就为(1/2=0.5),实践上,变声引擎端到端的实时率只须要小于 1 即可撑持实时变声解决。思考到计算的抖动,须要有更低的实时率能力保障稳固的服务,这对于模型的大小以及算力有很大的限度。
  • 算法提早:以后大部分变声算法在解决以后帧数据时,依赖于将来语音帧的数据输出,这部分语音的时长即算法提早。在实时交互场景,人们能够感知到的提早大概在 200ms,过高的提早会极大水平升高用户参加的积极性。例如用户说完一句话,对方如果须要期待 1 秒以上能力听到变声后的语音,很多人可能就不会在聊天场景中应用这个性能了。

对此,声网音频技术团队是如何解决算法的提早与音频解决的实时率,并实现 any-to-any 变声音效的冲破?

首先,「声网实时声纹变声」先通过语音辨认模型提取语音中帧级别的音素特色,声纹识别模型提取声纹特色,而后将两者一起传递给语音合成模块,合成变声后的频谱特色,最初利用 AI 声码器合成时域波形信号,这三个模块均反对流式的数据处理。流式解决次要是针对数据的新鲜度价值很高,须要提供更快的有价值信息,通常在触发器开始后的几百甚至几十毫秒内须要失去处理结果,在实时声纹变声中,流式解决体现为音素、声纹数据的实时处理、低提早,人们在应用变声成果对话时还须要保障沟通的流畅性,不能一方说了一句话另一方过了好几秒才听到变声。

在神经网络设计层面,声网次要采纳 CNN (卷积神经网络)和 RNN(递归神经网络)的网络结构别离提取语音信号中的部分以及长程时序特色。语言信号具备短时安稳的个性,用 CNN 能够很无效的提取帧级别的音素特色。RNN 对语音中随工夫变动更为迟缓的特色(字词)建模,个别一个字的发音会继续几百毫秒,所以声网利用基于 RNN 这种具备时序记忆能力的网络来构建频谱转换模块对语音的时序性特点进行建模。

RNN 解决的数据是“序列化”数据,训练的样本前后是有关联的,即一个序列的以后的输入与后面的输入也无关,比方一段语音是有工夫序列的,说的话前后是有关系的。通过这种设计,不仅无效地节俭了算力,而且也显著缩小了算法的提早,目前「声网实时声纹变声」的算法提早最低能够做到 220ms,处于业内当先的程度。

此外,声网基于海量数据独自训练了语音辨认模块,能够精确地提取帧级别的音素特色,极大水平地缩小了变声后呈现错字或者漏字的状况,保障了语言学内容的完整性。相似地,声网也基于海量数据训练了声纹识别模型,用于提取指标谈话人的音色特色,显著地晋升了变声后语音和指标谈话人的音色类似度,最终实现了 any-to-any 的变声能力。

相比于传统的变声软件,实时声纹变声凭借实时性以及 any-to-any 的变声能力,将在语聊房、直播、游戏、元宇宙等场景中施展更大的利用价值,不仅能够加强利用场景中用户的沉迷感与娱乐性体验,对利用的用户活跃度、应用时长、营收等也无望带来进一步的晋升。

例如在传统语聊房场景中,变声软件只能变成萌妹子或大叔的声音,实时声纹变声能够将用户的声音扭转成与某些明星相似的声音,将本来干燥的语聊房变成明星聊天室。

而在 Meta Chat 等元宇宙场景中,实时声纹变声能够搭配 3D 空间音频进一步加强用户的沉迷感,例如某社交 APP 与《海绵宝宝》达成单干后取得动漫中角色 IP 的形象与声音受权,用户在操控着专属的动漫角色聊天时,声音能够变成对应的海绵宝宝、派大星、章鱼博士等角色的声音,感知层面好像进入了实在的动漫世界,用户的沉迷感失去无效晋升。

基于此,实时声纹变声也能够进一步扩大影视、动漫 IP 的声音价值,出名影视、动漫角色的配音都能够使用在语聊房、直播间、游戏语音等场景的实时音视频互动中,对于利用自身而言,更丰盛的娱乐性体验能够晋升用户在利用内的应用时长、付费率等。

目前「声网实时声纹变声」现已开启凋谢测试,如您想进一步征询或接入实时声纹变声,可点击「此处」留下您的信息,咱们将与您及时分割,做进一步的沟通。

正文完
 0