关于算法:AliPLC-智能丢包补偿算法提升弱网环境的通话质量

3次阅读

共计 4014 个字符,预计需要花费 11 分钟才能阅读完成。

在线视频 / 语音通话逐步成为人们日常生活的一部分,而复杂多变的网络环境会导致局部音频包无奈传送到接收端,造成语音信号的短时中断或者卡顿,这会重大影响通话体验,为解决这类问题,阿里云视频云音频技术团队在综合思考成果、性能开销、实时性等诸多因素后,研发了实时因果的智能丢包弥补算法 AliPLC (Ali Packet Loss Concealment),采纳低复杂度的端到端的生成反抗网络来解决语音在传输过程中的丢包问题。

实时通信中,信号不好怎么办?

随着互联网技术的飞速发展,直播,在线教育,音视频会议,社交泛娱乐,互动游戏等新兴的交互方式正在扭转着人们的生存。值得一提的是,它们的衰亡都离不开实时通信技术 (Real Time Communication, RTC) 的倒退。图 1 展示了 RTC 通信中音频链路的简要流程,次要蕴含:采集、前解决 (3A)、编码、传输、解码、丢包弥补、混音、播放等环节。

图 1. RTC 中的音频链路示意图

语音信号通过编码压缩技术,在网络上进行分帧传送。然而因为网络环境的影响会导致局部音频包无奈传送到接收端,造成语音信号的短时中断或者卡顿,进而影响长时通话过程中的音质和可懂度。为解决以上问题,丢包弥补 (Packet Loss Concealment,PLC) 算法应运而生。PLC 算法能够通过利用所有已失去的信息对失落的音频包进行失当的弥补,使之不易被觉察,从而保障了接管侧音频的清晰度和晦涩度,给用户带来更好的通话体验。

音频弥补算法业内钻研现状

丢包是数据在网络中进行传输时会常常遇到的一种景象,也是引起 VOIP(Voice Over Internet Phone, VOIP) 通话中语音品质降落的次要起因之一。传统的 PLC 解决方案次要基于信号剖析原理 [1-2],大抵能够分为基于发送端弥补的计划和基于接收端弥补的计划。前者的基本原理是利用编码冗余信息来复原丢包的内容。

然而,该办法须要占用额定带宽,且存在编解码器不兼容的问题。后者的基本原理是利用丢包前的解码参数信息来重构出失落的语音信号。传统的 PLC 办法最大的长处是计算简略,可在线弥补;毛病是弥补的能力无限,只能无效反抗 40ms 左右的丢包。应答长时间断突发丢包时,传统算法会呈现机械音,波形疾速衰减等无奈无效弥补的状况。因而,上述传统的 PLC 办法的解决能力满足不了现网业务的需要。

近年来,硬件和算法都有了显著的提高,越来越多深度学习的办法被利用到语音信号处理畛域。当然,PLC 算法也不例外。现有的深度 PLC 办法都是在接收端利用深度学习的模型生成失落的音频包,大抵能够分为两个通用的工作框架:

第一个是实时因果解决框架,只应用历史的未失落帧进行后处理。在进行实时处理时,按迭代办法的不同大抵能够分为基于循环神经网络的自回归办法 [3-4] 和基于生成反抗网络的并行办法 [5-6] 两种,但往往波及较大的参数量和计算量。

第二个是离线非因果解决框架,除了应用历史未失落帧之外,还有可能应用了包含将来帧的更宽泛的上下文信息 [7-8]。离线解决办法通常关注的是如何填充语音信号中的空白,而且通常不思考计算复杂度,难以在理论利用场景中部署。

智能丢包弥补算法:AliPLC

1. 算法原理

在综合思考业务应用场景,弥补成果、性能开销、实时性等诸多因素后,阿里云视频云音频技术团队研发了实时因果的智能丢包弥补算法:AliPLC(Ali Packet Loss Concealment),采纳低复杂度的端到端的生成反抗网络来解决语音在传输过程中的丢包问题。该算法具备以下长处:
• 算法没有任何延时;
• 能够实时流式解决;
• 能够生成高质量的语音;
• 不必独自进行平滑操作就能保障丢包前后音频的平滑和连贯性。

2. 算法性能

AliPLC 算法的参数量为 590k, 在主频为 2GHz 的 Intel Core i5 四核机器上弥补一帧 20ms 的音频数据所需工夫为 1.5ms, 在推演的过程中不产生任何延时。

3. 利用场景

4. 成果展现

上面别离对中文男女生测试语料的丢包弥补前后成果进行展现。主观听感上,弥补之后的语音卡顿缩小,晦涩度和清晰度都有显著的晋升。

中文男声固定间断丢包 60ms:

丢包音频音频

Webrtc neteq plc 补出音频

opus plc 补出音频音频

AliPLC 补出音频音频

不同办法的波形图比照:

从图中能够显著的看出,在固定丢包 60ms 时,通过 AliPLC 算法解决后的音频的连贯性更好,也不存在衰减等无奈弥补的状况。

中文女声固定间断丢包 120ms:

丢包音频音频

WebRTC neteq plc 补出音频

opus plc 补出音频音频

AliPLC 补出音频音频

从图中能够显著的看出,在固定丢包 120ms 时,AliPLC 算法的弥补成果较其余算法好一些;neteq_plc 算法通过简略的基因周期的反复和衰减实现丢包弥补,在长时丢包产生时,听起来有很重的机械音,而且会影响未丢包局部的波形;opus_plc 算法的弥补能力无限,只能无效弥补 40ms 左右,多于 40ms 的丢包会被衰减为静音。

AliPLC 主观指标评测

咱们采纳 POLQA 和 STOI 两种主观指标对不同 PLC 算法的弥补成果进行了测评,在不同丢包率下它们的分数如下图所示。其中横坐标示意丢包率,纵坐标示意分数。POLQA 分数的取值范畴为 0-4.5,STOI 分数的取值范畴为 0-1,两种主观指标的分数越高,阐明弥补后语音信号的品质越好,可懂度越高。

从图中能够显著的看出 AliPLC 算法在 POLQA 和 STOI 两种主观指标上都优于其余 PLC 算法。AliPLC 算法与 neteq_plc 算法相比:POLQA 均匀晋升 0.54 分 ,STOI 均匀晋升 21.7%;AliPLC 算法与 opus_plc 算法相比:POLQA 均匀晋升 0.45 分 ,STOI 均匀晋升 3.4%; AliPLC 算法在丢包 30% 时的指标比 neteq_plc 算法在丢包 20% 时的指标还要好一些,即 AliPLC 算法能够使承受侧多抗 10%-20% 的丢包。

AliPLC 弥补算法的后续翻新

AliPLC 作为阿里云视频云音频技术团队音频解决方案的一部分,充分利用深度学习中 GAN 网络可能无效地生成高质量的音频这一能力,在办法上进行翻新,用较低的计算复杂度,提供间断丢包弥补的能力,晋升用户在弱网环境下的通话体验。在将来,阿里云视频云音频技术团队将持续摸索基于深度学习 + 信号处理的的音频技术,为更宽泛的用户发明极致的音频体验。

参考文献
[1] S. M. Kay and S. L. Marple,“Spectrum analysis A modern perspective,”Proceedings of the IEEE, vol. 69, no. 11, pp. 1380–1419, 1981.
[2] C. A. Rodbro, M. N. Murthi, S. V. Andersen, and S. H. Jensen,“Hidden Markov model-based packet loss concealment for voice over IP,”IEEE Transactions on Audio, Speech, and Language Processing, vol. 14, no. 5, pp. 1609–1623, 2006.
[3] M. M. Mohamed and B. W. Schuller,“ConcealNet: An End- to-end Neural Network for Packet Loss Concealment in Deep Speech Emotion Recognition,”arXiv:2005.07777 [cs, eess], May 2020, arXiv: 2005.07777.
[4] F. Stimberg et al., “WaveNetEQ — Packet Loss Concealment with WaveRNN,” 2020 54th Asilomar Conference on Signals, Systems, and Computers, 2020, pp. 672-676.
[5] S. Pascual, J. Serra, and J. Pons,“Adversarial Auto-Encoding for Packet Loss Concealment,”arXiv:2107.03100 [cs, eess], Jul. 2021, arXiv: 2107.03100.
[6] J. Wang, Y. Guan, C. Zheng, R. Peng, and X. Li,“A temporal-spectral generative adversarial network based end-to-end packet loss concealment for wideband speech transmission,”The Journal of the Acoustical Society of America, vol. 150, no. 4, pp. 2577–2588, Oct. 2021.
[7] O. Ronneberger, P. Fischer, and T. Brox,“U-Net: Convolutional Networks for Biomedical Image Segmentation,”arXiv:1505.04597 [cs], May 2015, arXiv: 1505.04597 version: 1.
[8] A. Marafioti, N. Perraudin, N. Holighaus, and P. Majdak,“A context encoder for audio inpainting,”IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 27, no. 12, pp. 2362–2372, 2019.

「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实际技术文章,在这里与音视频畛域一流工程师交换切磋。公众号后盾回复【技术】可退出阿里云视频云产品技术交换群,和业内大咖一起探讨音视频技术,获取更多行业最新信息。

正文完
 0