近些年,随着实时通信技术的倒退,在线会议逐步成为人们工作中不可或缺的重要办公工具,据不齐全统计,线上会议中约有 75% 为纯语音会议,即无需开启摄像头和屏幕共享性能,此时会议中的语音品质和清晰度对线上会议的体验便至关重要。
作者|七琦
审校|泰一
前言
在现实生活中,会议所处的环境是极具多样性的,包含宽阔的嘈杂环境、刹时非安稳的键盘敲击声音等,这些对传统的基于信号处理的语音前端加强算法提出了很大的挑战。与此同时随同着数据驱动类算法的疾速倒退,学界 [1] 和工业界 [2,3,4] 逐步涌现出了深度学习类的智能语音加强算法,并获得了较好的成果,AliCloudDenoise 算法在这样的背景下应运而生,借助神经网络卓越的非线性拟合能力,与传统语音加强算法相结合,在一直的迭代优化中,针对实时会议场景下的降噪成果、性能耗费等方面进行了一系列的优化与改良,最终能够在充分保证降噪能力的同时保有极高的语音保真度,为阿里云视频云实时会议零碎提供了卓越的语音会议体验。
语音加强算法的倒退现状
语音加强是指洁净语音在现实生活场景中受到来自各种噪声烦扰时,须要通过肯定的办法将噪声滤除,以晋升该段语音的品质和可懂度的技术。过来的几十年间,传统单通道语音加强算法失去了疾速的倒退,次要分为时域办法和频域办法。其中时域办法又能够大抵分为参数滤波法 [5,6] 和信号子空间法 [7],频域办法则包含谱减法、维纳滤波法和基于最小均方误差的语音幅度谱估计办法 [8,9] 等。
传统单通道语音加强办法具备计算量小,可实时在线语音加强的长处,但对非安稳突发性噪声的克制能力较差,比方马路上忽然呈现的汽车鸣笛声等,同时传统算法加强后会有很多残留噪声,这些噪声会导致主观听感差,甚至影响语音信息传播的可懂度。从算法的数学实践推导角度来说,传统算法还存在解析解求解过程中假如过多的问题,这使得算法的成果存在显著下限,难以适应复杂多变的理论场景。自 2016 年起,深度学习类办法显著晋升了许多监督学习工作的性能,如图像分类 [10],手写辨认 [11],主动语音辨认 [12],语言建模 [13] 和机器翻译 [14] 等,在语音加强工作中,也呈现了很多深度学习类的办法。
图一 传统单通道语音加强零碎的经典算法流程图
基于深度学习类的语音加强算法依据训练指标的不同大抵可分为以下四类:
• 基于传统信号处理的混合类语音加强算法(Hybrid method)
这类算法多将传统基于信号处理的语音加强算法中的一个或多个子模块由神经网络代替,个别状况下不会扭转算法的整体解决流程,典型代表如 Rnnoise[15]。
• 基于时频掩模近似的语音加强算法(Mask_based method)
这类算法通过训练神经网络来预测时频掩模,并将预测的时频掩模利用于输出噪声的频谱来重构污浊语音信号。
罕用的时频掩模包含 IRM[16],PSM[17], cIRM[18] 等,训练过程中的误差函数如下式所示:
• 基于特色映射的语音加强算法(Mapping_based method)
这类算法通过训练神经网络来实现特色的间接映射,罕用的特色包含幅度频谱、对数功率频谱和复数频谱等,训练过程中的误差函数如下式所示:
• 基于端到端的语音加强算法(End-to-end method)
这类算法将数据驱动的思维施展到了极致,在数据集散布正当的前提下,抛却频域变换,间接从时域语音信号进行端到端的数值映射,是近两年宽泛沉闷在学术界的热门钻研方向之一。
AliCloudDenoise 语音加强算法
一、算法原理
在综合思考业务应用场景,对降噪成果、性能开销、实时性等诸多因素衡量后,AliCloudDenoise 语音加强算法采纳了 Hybrid 的办法,将带噪语音中噪声能量和指标人声能量的比值作为拟合指标,进而利用传统信号处理中的增益预计器如最小均方误差短时频谱幅度 (MMSE-STSA) 预计器,求得频域上的去噪增益,最初经逆变换失去加强后的时域语音信号。在网络结构的抉择上,兼顾实时性和功耗,舍弃了 RNN 类构造而抉择了 TCN 网络,根本网络结构如下图所示:
二、实时会议场景下的算法优化
1、散会时旁边人多很吵怎么办?
问题背景
在实时会议场景中,有一类较为常见的背景噪声是 Babble Noise,即多个谈话者的交谈声组成的背景噪声,此类噪声不仅仅是非安稳的,而且和语音加强算法的指标语音成分类似,导致在对这类噪声的克制过程中算法解决的难度增大。以下列举了一个具体的实例:
问题剖析与改良计划
通过对数十小时含有 Babble Noise 的办公室场景音频进行剖析,同时联合人类的语音发声机制,发现这类噪声具备类长时安稳存在个性,家喻户晓,在语音加强算法中,上下文信息(contextual information)对算法成果有着十分重要的影响,所以针对 Babble Noise 这种对上下文信息更加敏感的噪声类型,AliCloudDenoise 算法通过空洞卷积(dilated convolutions)系统性地聚合模型中的要害阶段性特色,显式的增大感触野,同时额定的交融了门控机制(gating mechanisms),使得改良后的模型对 Babble Noise 的解决成果有了显著的改善。下图展现了改良前(TCN)与改良后(GaTCN)的要害模型局部的比照图。
在语音测试集上的结果表明,所提 GaTCN 模型在 IRM 指标下语音品质 PESQ[19] 较 TCN 模型晋升了 9.7%,语音可懂度 STOI[20] 较 TCN 模型晋升了 3.4%;在 Mapping a priori SNR[21] 指标下语音品质 PESQ 较 TCN 模型晋升了 7.1%,语音可懂度 STOI 较 TCN 模型晋升了 2.0%,且优于所有的 baseline 模型,指标详情见表一和表二。
表一 主观指标语音品质 PESQ 比照详情
表二 主观指标语音可懂度 STOI 比照详情
改良成果展现:
2、关键时刻怎能掉字?
问题背景
在语音加强算法中,吞字或特定字词隐没如语句尾音隐没的景象是影响加强后语音主观听感的一个重要因素,在实时会议场景中,因波及到的语种多样,语者谈话内容多样,这种景象更为常见,以下列举了一个具体的实例:
问题剖析与改良计划
在分类构建的 1w+ 条语音测试数据集上,通过对加强后吞字、掉字景象产生的机会进行统计,并可视化其对应的频域特色,发现该景象次要产生在浊音、叠音及长音等几类特定的音素或字词上;同时,在以信噪比为维度的分类统计中发现低信噪比状况下的吞字、掉字景象显著增多,据此,进行了以下三方面的改良:
• 数据层面:首先进行了训练数据集中特定音素的散布统计,在得出占比拟少的论断后,针对性的丰盛了训练数据集中的语音成分。
• 降噪策略层面:升高低信噪比状况,在特定状况下应用组合降噪的策略,即先进行传统降噪,再进行 AliCloudDenoise 降噪,此办法的毛病体现在以下两方面,首先组合降噪会减少算法开销,其次传统降噪不可避免的会呈现频谱级音质伤害,升高整体的音质品质。此办法经实测的确会改善吞字、掉字景象,但因其毛病显著,并未在线上应用。
• 训练策略层面:在针对性的丰盛了训练数据集中的语音成分后,的确会改善加强后吞字、掉字的景象,但仍存在该景象,进一步剖析后,发现其频谱特色与某些噪声的频谱特色高度类似,导致网络训练局部收敛艰难,基于此,AliCloudDenoise 算法采纳了训练中辅助输入语音存在概率,而推演过程中不驳回的训练策略,SPP 的计算公式如下:
在语音测试集上的结果表明,所提双输入的辅助训练策略在 IRM 指标下语音品质 PESQ 较原模型晋升了 3.1%,语音可懂度 STOI 较原模型晋升了 1.2%;在 Mapping a priori SNR 指标下语音品质 PESQ 较原模型晋升了 4.0%,语音可懂度 STOI 较原模型晋升了 0.7%,且优于所有的 baseline 模型,指标详情见表三和表四。
表三 主观指标语音品质 PESQ 比照详情
表四 主观指标语音可懂度 STOI 比照详情
改良成果展现:
三、如何让算法的实用设施范畴更广
对于实时会议场景来说,AliCloudDenoise 算法的运行环境个别包含 PC 端、挪动端以及 IOT 设施等,只管在不同运行环境中对于能耗的要求不同,但 CPU 占用、内存容量及带宽、电量耗费等都是咱们关注的要害性能指标,为了使 AliCloudDenoise 算法可能宽泛地为各个业务方提供服务,咱们采纳了一系列能耗优化伎俩,次要包含模型的结构化裁剪、资源自适应策略、权值量化与训练量化等,并通过一些辅助收敛策略在精度升高 0.1% 量级的状况下最终失去了约 500KB 的智能语音加强模型,极大地拓宽了 AliCloudDenoise 算法的利用范畴。
接下来咱们首先对优化过程中波及到的模型轻量化技术做简略的回顾,而后对资源自适应策略和模型量化开展介绍,最初给出 AliCloudDenoise 算法的要害能耗指标。
1、采纳的模型轻量化技术
针对深度学习模型的轻量化技术,个别指对模型的参数量及尺寸、运算量、能耗、速度等“运行老本”进行优化的一系列技术手段。其目标是便于模型在各类硬件设施的部署。同时,轻量化技术在计算密集型的云端服务上也有宽泛的用处,能够帮忙升高服务老本、晋升相应速度。
轻量化技术的次要难点在于:在优化运行老本的同时,算法的成果与泛化性、稳定性不应受到显著的影响。这对于常见的“黑箱式”神经网络模型来说,在各方面都具备肯定的难度。此外,轻量化的一部分难点也体现在优化指标的差异性上。
比方模型尺寸的升高,并不一定会使得运算量升高;模型运算量的升高,也未必能进步运行速度;运行速度的晋升也不肯定会升高能耗。这种差异性使得轻量化难以“一揽子”地解决所有性能问题,须要从多种角度、利用多种技术配合,能力达成运行老本的综合升高。
目前学术界与工业界常见的轻量化技术包含:参数 / 运算量子化、剪枝、小型模块、构造超参优化、蒸馏、低秩、共享等。其中各类技术都对应不同的目标与需要,比方参数量化能够压缩模型占用的存储空间,但运算时仍然复原成浮点数;参数 + 运算全局量子化能够同时升高参数体积,缩小芯片运算量,但须要芯片有相应的运算器反对,能力施展提速成果;常识蒸馏利用小型的学生网络,学习大型模型的高层特色,来取得性能匹配的轻量模型,但优化存在一些难度且次要适宜简化表白的工作(比方分类)。
非结构化的精密剪裁能够将最多的冗余参数剔除,达成低劣的精简,但须要专用硬件反对才能够缩小运算量;权重共享可显著升高模型尺寸,毛病是难以减速或节能;AutoML 构造超参搜寻能主动确定小型测试后果最优的模型重叠构造,但搜寻空间复杂度与迭代预计的低劣度限度了其利用面。下图展现了 AliCloudDenoise 算法在能耗优化过程中次要采纳的轻量化技术。
2、资源自适应策略
资源自适应策略的核心思想是模型能够在资源不短缺的状况下自适应的输入满足限定条件的较低精度的后果,在资源短缺时就做到最好,输入最优精度的加强后果,实现此性能最间接的想法是训练不同规模的模型寄存在设施中,按需应用,但会额定减少存储老本,AliCloudDenoise 算法采纳了分级训练的计划,如下图所示:
将中间层的后果也进行输入,经联结 loss 最终进行对立束缚训练,但理论验证中发现存在以下两个问题:
• 比拟浅层的网络抽取的特色比拟根底,浅层网络的加强成果较差。
• 减少了中间层网络输入的构造后,最初一层网络的加强后果会受到影响,起因是联结训练过程中会心愿浅层网络也能够输入较为不错的加强后果,毁坏了原有网络结构抽取特色的散布布局。
针对以上两个问题,咱们采纳了多尺度 Dense 连贯 + 离线超参预剪枝的优化策略,保障了模型可动静按需输出精度范畴不超过 3.2% 的语音加强后果。
3、模型量化
在模型所需的内存容量及带宽的优化上,次要采纳了 MNN 团队的权值量化工具 [22] 和 python 离线量化工具 [23] 实现了 FP32 与 INT8 之间的转换,计划示意图如下:
4、AliCloudDenoise 算法的要害能耗指标
如上图所示,在 Mac 平台的算法库大小上,竞品为 14MB,AliCloudDenoise 算法目前支流输入的算法库为 524KB、912KB 和 2.6MB,具备显著劣势;在运行耗费上,Mac 平台的测试结果表明,竞品的 cpu 占用为 3.4%,AliCloudDenoise 算法库 524KB 的 cpu 占用为 1.1%,912KB 的 cpu 占用为 1.3%,2.6MB 的 cpu 占用为 2.7%,尤其在长时运行条件下,AliCloudDenoise 算法有显著劣势。
四、算法的成果技术指标评测后果
针对 AliCloudDenoise 算法的语音加强成果的评估目前次要集中在两个场景上,通用型场景和办公室会议场景。
1、通用场景下的评测后果
通用型场景的测试集中,语音数据集由中文和英文两局部组成(共计约 5000 条),噪声数据集则蕴含了常见的四类典型噪声,安稳噪声(Stationary noise)、非安稳噪声(Non-stationary noise)、办公室噪声(Babble noise)和室外噪声(Outdoor noise),环境噪声强度设置在 – 5 到 15db 之间,主观指标次要通过 PESQ 语音品质与 STOI 语音可懂度来掂量,两项指标都是值越大示意加强后的语音成果越好。
如下表所示,在通用型场景的语音测试集上的评测结果表明,AliCloudDenoise 524KB 算法库较传统算法在 PESQ 上别离有 39.4%(英文语音)和 48.4%(中文语音)的晋升,在 STOI 上别离有 21.4%(英文语音)和 23.1%(中文语音)的晋升,同时和竞品算法根本持平。而 AliCloudDenoise 2.6MB 算法库较竞品算法在 PESQ 上别离有 9.2%(英文语音)和 3.9%(中文语音)的晋升,在 STOI 上别离有 0.4%(英文语音)和 1.6%(中文语音)的晋升,展现出了显著的成果劣势。
2、办公室场景下的评测后果
联合实时会议的业务声学场景,咱们针对办公室场景做了独自的评测,噪声为理论录制的实在办公场景下的嘈杂噪声,共构建了约 5.3h 的评测带噪语音。下图展现了 AliCloudDenoise 2.6MB 算法库和竞品 1、竞品 2、传统 1 及传统 2,这四种算法在 SNR、P563、PESQ 和 STOI 指标上的比照后果,能够看到 AliCloudDenoise 2.6MB 算法库具备显著劣势。
将来瞻望
在实时通信场景下,AI + Audio Processing 还有很多待摸索和落地的钻研方向,通过数据驱动思维与经典信号处理算法的交融,能够给音频的前端算法(ANS、AEC、AGC)、音频的后端算法(带宽扩大、实时美声、变声、音效)、音频编解码及弱网下的音频解决算法(PLC、NetEQ)带来成果上的降级,为阿里云视频云的用户提供极致的音频体验。
参考文献
[1] Wang D L, Chen J. Supervised speech separation based on deep learning: An overview[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2018, 26(10): 1702-1726.
[2] https://venturebeat.com/2020/…
[3] https://venturebeat.com/2020/…
[4] https://medialab.qq.com/#/pro…
[5] Gannot S, Burshtein D, Weinstein E. Iterative and sequential Kalman filter-based speech enhancement algorithms[J]. IEEE Transactions on speech and audio processing, 1998, 6(4): 373-385.
[6] Kim J B, Lee K Y, Lee C W. On the applications of the interacting multiple model algorithm for enhancing noisy speech[J]. IEEE transactions on speech and audio processing, 2000, 8(3): 349-352.
[7] Ephraim Y, Van Trees H L. A signal subspace approach for speech enhancement[J]. IEEE Transactions on speech and audio processing, 1995, 3(4): 251-266.
[8] Ephraim Y, Malah D. Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator[J]. IEEE Transactions on acoustics, speech, and signal processing, 1984, 32(6): 1109-1121.
[9] Cohen I. Noise spectrum estimation in adverse environments: Improved minima controlled recursive averaging[J]. IEEE Transactions on speech and audio processing, 2003, 11(5): 466-475.
[10]Ciregan D, Meier U, Schmidhuber J. Multi-column deep neural networks for image classification[C]//2012 IEEE conference on computer vision and pattern recognition. IEEE, 2012: 3642-3649.
[11]Graves A, Liwicki M, Fernández S, et al. A novel connectionist system for unconstrained handwriting recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2008, 31(5): 855-868.
[12]Senior A, Vanhoucke V, Nguyen P, et al. Deep neural networks for acoustic modeling in speech recognition[J]. IEEE Signal processing magazine, 2012.
[13]Sundermeyer M, Ney H, Schlüter R. From feedforward to recurrent LSTM neural networks for language modeling[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2015, 23(3): 517-529.
[14]Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks[C]//Advances in neural information processing systems. 2014: 3104-3112.
[15] Valin J M. A hybrid DSP/deep learning approach to real-time full-band speech enhancement[C]//2018 IEEE 20th international workshop on multimedia signal processing (MMSP). IEEE, 2018: 1-5.
[16] Wang Y, Narayanan A, Wang D L. On training targets for supervised speech separation[J]. IEEE/ACM transactions on audio, speech, and language processing, 2014, 22(12): 1849-1858.
[17] Erdogan H, Hershey J R, Watanabe S, et al. Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks[C]//2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2015: 708-712.
[18] Williamson D S, Wang Y, Wang D L. Complex ratio masking for monaural speech separation[J]. IEEE/ACM transactions on audio, speech, and language processing, 2015, 24(3): 483-492.
[19] Recommendation I T U T. Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs[J]. Rec. ITU-T P. 862, 2001.
[20] Taal C H, Hendriks R C, Heusdens R, et al. A short-time objective intelligibility measure for time-frequency weighted noisy speech[C]//2010 IEEE international conference on acoustics, speech and signal processing. IEEE, 2010: 4214-4217.
[21] Nicolson A, Paliwal K K. Deep learning for minimum mean-square error approaches to speech enhancement[J]. Speech Communication, 2019, 111: 44-55.
[22] https://www.yuque.com/mnn/cn/…
[23] https://github.com/alibaba/MN…
「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实际技术文章,在这里与音视频畛域一流工程师交换切磋。公众号后盾回复【技术】可退出阿里云视频云技术交换群,和作者一起探讨音视频技术,获取更多行业最新信息。