超分让在线会议语音更亮堂,在线会议已成为日常工作中较为广泛的沟通交流形式,接入会议的形式也出现多样化,比方电脑入会、手机入会又或是电话入会。
雪雅、曜辰| 作者
家喻户晓,高采样率且高带宽的音频信号富含丰盛的频率成分,可能带给人们更身临其境的听觉体验。但在线会议中,电话入会又或是因设施等起因导致原始采集带宽过低的场景中,带给人们的直观感触体现为听对方谈话比拟闷,重大影响会议体验。在信号处理中,语音超分技术能够用来解决这类状况,它能够最大限度地从低带宽的音频信号中重建出其高频成分,让语音信号听起来更“亮堂、真切”,从而为客户提供更杰出更高音质的通话体验。
上面是一个简略的成果演示:
https://www.youku.com/video/X…
作者注:视频中前半部分是窄带信号,后半局部是超分后的宽带信号。
语音超分技术的晚期钻研多围绕传统信号处理实践开展,如源滤波器模型,通过 codebook 映射或者线性映射的办法来预测高频带频谱包络 [1, 2]。近些年随着深度学习技术在信号处理畛域的利用,语音超分技术在深度学习的加持下,成果取得了显著的晋升。
最开始,连续了传统信号处理框架,神经网络替换原有框架的一部分,用来预测高频带的谱包络或者幅度谱 [3, 4],相位扩大沿用传统的办法,放弃计算复杂度低的劣势 [1],然而相位信息对于人耳主观听感有着不可疏忽的影响。
随后,受图像超分辨率算法的启发,基于端到端的神经网络模型利用到了语音超分工作 [5, 6],它间接在时域上对信号实现了预测,防止了相位问题,这些办法都是通过最小化某个损失函数(如 L2 loss) 来训练的,起初,引入了 GAN 的训练形式,联合原有的损失函数和反抗损失,达到了更好的成果 [7, 8]。
以后,咱们次要针对采样率从 8KHz 进步到 16KHz 的状况(频谱带宽从 4KHz 扩大到 8KHz)。
语音超分算法:AliSSR
基于神经网络的语音超分算法近几年来获得了不错的超分成果,但其中很多算法都是双非算法(非实时非因果),同时往往波及较大的参数量和计算量,难以在理论利用场景中部署。阿里云视频云音频技术团队基于上述理论问题,研发了两种实时因果的语音超分算法:AliSSR(e2e 版本)和 AliSSR(lightweight 版本),在领有较少参数量和较低延时的同时,放弃其高质量的语音超分成果。
1. 算法原理简介
A. AliSSR(e2e 版本):是基于端到端的 encoder-decoder 模型。该模型结合实际利用场景,充分考虑了编解码、下采样所带来的损失,并联合 GAN 相干的训练技巧,晋升带宽拓展的成果;
B. AliSSR(lightweight 版本):传统信号处理与深度学习联合的算法模型。该模型简略易拓展,资源耗费较小。
音频技术团队研发的基于神经网络的语音超分算法无需额定数据传输, 能够实时流式地对窄带语音信号进行高质量地带宽拓展。
2. 算法性能
3. 利用场景
在某些低带宽的场景中 , 例如在 PSTN 场景中,往往感觉对方声音很“闷”,这次要是因为发送端传输的语音信号采样率低,没有高频成分的语音信息。语音超分技术通过重建语音的高频成分,为客户提供更高音质、更杰出的通话听觉体验。语音超分罕用的应用场景如下表所示。
4. 超分成果显示
AliSSR 实时超分算法反对多语种、多性别。上面别离对男生英文和女生中文测试语料的超分前后成果进行展现,主观听感层面,超分之后的语音显著比窄带音频要更“亮堂”,其中 AliSSR(e2e 版本)超分后亮堂度要比 AliSSR(lightweight 版本)更好。
样本 1:英文
https://www.youku.com/video/X…
视频中的三段音频别离是:窄带语音、AliSSR 实时处理后的 e2e 版本和 lightweight 版本
样本 2:中文
https://www.youku.com/video/X…
视频中的三段音频别离是:窄带语音、AliSSR 实时处理后的 e2e 版本和 lightweight 版本
语音超分技术在 PSTN、在线会议、老旧音频修复以及媒体生产等畛域,有着较为宽泛的落地场景。AliSSR 语音超分算法在神经网络的助力下,仅需极少的资源耗费,即可实时地给用户带来更“亮堂、真切”的音质体验。将来,音频技术将会持续铸造更强的超分能力,摸索从窄带到全频带、从语音到音乐再到全类音频的全场景笼罩的超分技术。
阿里云视频云音频技术团队将持续摸索基于深度学习 + 信号处理的的音频技术,为在线会议等场景提供更清晰更极致的音频体验。
参考文献
[1] J.Makhoul, M.Berouti,“High-frequency regen-eration in speech coding systems”, in Proceedings of ICASSP, 1979, vol. 4, pp. 428–431.[2] B. Iser, G. Schmidt,“Neural networks versus codebooks inan application for bandwidth extension of speech signals,”in Proc. of Interspeech, 2003[3] Kehuang Li, Chin-Hui Lee,“A deep neural networkapproach to speech bandwidth expansion”, in Proceedings of ICASSP, 2015, pp. 4395–4399.[4] J. Abel, T. Fingscheidt,“Artificial speech band-width extension using deep neural networks for wide-band spectral envelope estimation”, IEEE Transactionson Acoustics, Speech, and Signal Processing, vol. 26,no. 1, pp. 71–83, 2017[5] V. Kuleshov, S.Z. Enam, and S. Ermon,“Audio super resolution using neural nets”, in Workshop of ICLR, 2017.[6] Heming Wang, Deliang Wang, “Time-frequency loss for CNN based speech super-resolution”, in Proceedings of ICASSP, 2020.[7] Eskimez, Sefik Emre et al.“Adversarial Training for Speech Super-Resolution.”IEEE Journal of Selected Topics in Signal Processing 13 (2019): 347-358.[8] Li, Y., Tagliasacchi, M., Rybakov, “Real-Time Speech Frequency Bandwidth Extension”, ICASSP, 2021.
「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实际技术文章,在这里与音视频畛域一流工程师交换切磋。公众号后盾回复【技术】可退出阿里云视频云产品技术交换群,和业内大咖一起探讨音视频技术,获取更多行业最新信息。