关于人工智能:基于机器学习的语音编解码器声网Agora-Silver支持超低码率下的高音质语音互动

3次阅读

共计 2822 个字符，预计需要花费 8 分钟才能阅读完成。

从 1860 年电话创造，到现如今通过网络进行语音互动，语音始终是最天然、最根底的实时互动形式。过来几年，语音实时互动成为越来越多人日常生活的一部分。然而每个人都会遇到弱网环境，这会间接影响语音通话体验。所以声网也在一直地利用最前沿的技术来改良语音通话体验。咱们当初在国内率先正式推出基于机器学习的语音编解码器（语音 AI Codec）——声网 Agora Silver。它能够在超低码率下，提供 32KHz 采样率的超宽带编码音质，并通过 AI 降噪算法来进一步优化音质与语音天然听感。

在语音互动的过程中，所有用户都会遇到弱网。有的是因为所在地区的网络设施问题造成的；有的可能处于网络设施较好的区域，但遇到网络应用高峰期，依然会呈现网络拥塞，从而使用户分到的无效带宽升高。任何人都无奈保障网络的全时稳固，弱网环境长期存在。

面对弱网，通常会抉择降低码率，从而缩小对带宽的占用，以此来避免出现语音卡顿的状况。然而，这种办法尽管解决了卡顿、不可用的问题，却带来了新的问题。

传统的编解码器，在极低码率时只能放弃肯定的语音可懂度（即听得清对方在说什么），却很难放弃音色等其余信息。例如，Opus 在 6kbps 的码率下只能做到窄带语音的编码，无效语谱带宽就只有 4KHz 了。这是什么概念呢？

Opus 是目前业界利用最宽泛的音频编解码器，也是 WebRTC 默认的编解码器。为了能适应不同的网络状况，它的码率可在 6kbps – 510kbps 之间调节。那么当遇到弱网，或者说网络带宽无限的时候，能够将码率最低降至 6kbps。在这个码率下，只能进行窄带语音编码。依据业界的定义，窄带语音编码的采样率为 8KHz。而依据采样定理，也称作奈奎斯特采样定理，只有采样频率高于声音信号最高频率的两倍时，能力把数字信号示意的声音还原成为原来的声音。也就是说，采样率为 8KHz 的时候，无效语谱带宽只有 4KHz。人声会听起来很闷，因为声音中很多高频的局部失落了。

通过这么多年的倒退，曾经很难再通过算法调优，来帮忙传统编解码器冲破这个瓶颈了。而随着 AI 语音合成技术的一直倒退，尤其是基于 WaveRNN 的语音生成技术的倒退，人们发现将 AI 与音频编解码器联合，可能在更低码率的编码条件下更残缺地还原语音。

目前业界对于 AI 与音频编解码的联合有很多中摸索。例如，有通过 WaveRNN 在解码端来优化低码率的音质，也有利用 AI 在编码端优化压缩效率的办法。所以狭义上讲，只有是用到机器学习、深度学习来进行语音的压缩或解码的，都算是语音 AI Codec。

只管在很多编解码规范的设计研发中，已开始摸索将 AI 利用其中。语音 AI Codec 从学术、规范，落地到理论业务场景中，还比方 Google 最近公布的 Lyra 能够做到 3kpbs 的码率还原 16KHz 采样的宽带语音。它的做法是通过机器学习模型在解码端，依据收到的低码率的语音数据，重建还原出高质量信号，从而让声音还原度听下来更高。相似的语音 AI Codec 还有微软公布的 Satin，它能够在 6kpbs 的码率还原 32KHz 采样率的超宽带语音。

但绝对传统声码器，语音 AI Codec 的利用落地仍需解决一些难点：

乐音鲁棒性

依据香农定理，低码率对信号的信噪比要求更高。因为语音 AI Codec 解码多应用语音生成模型来生成音频信号，在噪声状况下，一个比拟直观的感触就是噪声都变成了一些相似语音的不天然乐音，十分影响听感。加上低码率压缩，噪声状况很可能会导致语音可懂度疾速降落，听下来你会感觉对端的人好像有“大舌头”，谈话含糊不清。所以在理论应用中，往往先须要一个优良的降噪模块来作为前解决，再进行编码。

针对挪动端的算法模型优化

解码时 AI 模型往往须要宏大算力。解码时采纳的语音生成模型的计算都比拟耗时，而实时互动场景又要求模型可在大部分挪动设施上进行实时计算。因为大多数实时互动都产生在挪动终端上。例如 Google 开源的 Lyra 在麒麟 960 芯片上实测蕴含 40ms 信息的一个音频 package，解码须要 40ms-80ms，如果你的手机搭载了这个芯片，例如华为光荣 9，就无奈在实时互动场景中采纳 Lyra。这还只是单路解码，如果须要多路解码（多人的实时通话）那要求的算力就须要成倍回升，个别的设施可能就无奈反对了。因而如果想要让语音 AI Codec 能利用于实时互动场景，那还必须针对挪动终端做算力优化，以满足实时性的性能与延时要求。

语言天然度与算力的衡量

要想得到一个天然的语音听感，往往须要更高算力的模型。这与咱们刚提到的第二个“挑战”刚好造成互相制约的关系。

较小算力的模型可能导致生成的语音有很多失真和不天然的听感。例如目前语音最天然的逐点生成模型（Sample by sample）模型往往须要 3-20GFLOPS 的计算量。咱们个别能够用 MUSHRA（用于流媒体与通信的相干编码的主观评估测试方法，满分 100 分）来评估语音生成模型的语音可懂度和天然度，20GFLOPS 的模型，例如 WaveRNN 就能够达到 MOS 分达到 85 分左右，而算力比拟小的模型，例如 3GFLOPS 的 LPCNET 就只能达到 75 分。

在 Silver 编解码器中，咱们通过自研算法解决了上述三个难题。如下图所示，Silver 首先利用实时全频带 AI 降噪算法提供噪声鲁棒性。在解码端，Silver 基于深度优化的 WaveRNN 模型，以极小的算力实现语音解码。

<center size=1>Silver 编解码器流程图 </center>

Silver 的个性包含：

1、解决噪声鲁棒性问题：联合自主研发的实时全频带 AI 降噪算法。

2、机器学习模型可运行于挪动终端：基于深度优化的 WaveRNN 模型以极小的算力实现语音解码，实测在高通 855 单核上，解码 40ms 的语音信号只须要 5ms 的计算工夫，晦涩反对各种实时互动场景。

3、超低码率：码率最低可达 2.7kpbs，更省带宽。

4、高音质：反对 32KHz 采样率，超宽带编码音质，音色丰满天然。

咱们基于 MUSHRA 规范来比照了 Silver、Opus（6kbps）、Lyra 的语音可懂度和天然度。如下图所示。其中 REF 为满分锚点，Anchor35 为低分锚点，就是把原始的语音（满分锚点）和很差的合成数据（低分锚点）混到测试语料里去承受测试打分。咱们测试了三种语言，Silver 的打分均高于其它编解码器。

同时，咱们还在不同的噪声环境下，比照测试了以上三种编解码器，测试打分后果如下。在 AI 降噪算法的反对下，Silver 能够为用户提供更天然的语音互动成果。

在有噪声和无噪声环境下，原声与通过不同编解码器传输后的成果能够通过咱们筹备的音频比照感触，因为平台无奈上传音频，因而，感兴趣的开发者能够点击这里收听。

因为篇幅限度，能分享的音频数量无限。如果你还心愿进一步理解 Silver，欢送拜访声网开发者社区，在论坛留言与咱们交换。

正文完