共计 2623 个字符,预计需要花费 7 分钟才能阅读完成。
导读:
随着音视频通信会议越来越遍及,与会各方在不同环境中遇到了越来越显著且差别的混响场景,譬如大会议室场景、玻璃会议室场景和小房间且隔音材料不佳场景等。为了保障更好的听音可懂度和舒适度,通信中的语音解混响需要愈来愈重要且紧迫。本文解说了网易云信在语音解混响以及晋升通信成果方面的一些研发停顿和观点,重点钻研基于自适应联合双麦信号相关性的计划,总体目标是在保真语音状况下晋升解混响成果。
文|张龙 网易云信资深算法工程师
一、语音混响的相干介绍
(一)混响介绍
下图形容了语音混响产生的起因和过程,信号中混响水平取决于:
- 房间密闭状态;
- 房间大小;
- 反射材质;
- 谈话人间隔麦克风间隔等。
(留神辨别回声含意)
如下图,依据达到工夫的先后,混响个别分为:直达声 + 晚期混响 + 前期混响, 他们在声学了解上有不同的意义。
下图展现语音混响 效 果:
(二)混响和解混响钻研倒退历程
- 最后的钻研来自对房间内声音流传景象的根底钻研,随后利用于音乐厅、教室等空间的声学设计,为了更好地传播声音包含音乐、人声等;
- 接下来钻研了混响对于语音可懂度的影响;
- 一些研究者关注混响带来的正向收益:晋升语音天然度、层次感和空间感等,包含可懂度晋升。研究者通过人造混响感来晋升多样体验,譬如娱乐、游戏和音乐畛域;如下图,网易云信基于 Feedback Delay Network(反馈延时网络)计划提供人造混响感的能力;
- 70 年代开始,语音解混响的钻研次要关注 混响对通话和录音的负面成果,晋升可懂度和品质;
- 04~05 年之后,免提通信 和视讯通话 会议衰亡,联合 11 年后语音助手(尤其强调远场)的倒退,语音解混响的钻研和利用越来越宽泛。
咱们依据语音解混响的利用将 评估性能 的指标进行了分类:
二、重点算法和研究进展
联合算法实际和运算思考,以后网易云信从传统算法开始实现语音解混响,配合降噪算法晋升通信体验。
下图将语音解混响算法依据 信号模型 和指标 进行了大抵分类:
本文次要关注以下重点:
- 线性预测类演进算法;
- 相关性克制类算法;
- 而后探讨后续联合深度学习的打算。
(一)AWPE 算法
模型转换可得:
Xt^m 示意第 m 个麦克风在 t 时刻接管到的信号,Lm 示意麦克风数目;hk^m 示意信源 s 达到第 m 个麦克风的冲击响应,Lh 是冲击响应长度;nt^m 示意第 m 个麦克风在 t 时刻接管到的加性噪声信号成分。
其中
示意麦克风 m 在 t 时刻前的 D 时刻及之前接管到的数据。dt^m 是前述后期反射信号,即解混响的指标信号;当然也有间接将求解源信号 s 作为指标信号的模型,但不是支流,因为后期混响个别有利于听觉和识别系统。
持续求解上述模型可得:
对上述模型进行 时频域转换 并引入 Recursive Least Squares 转换可得:
求解上述指标函数失去如下解:
上述求解可总结为如下步骤:
(二)相关性降噪解混响算法介绍
基于前期混响信号局部是散射场噪声的假如, 利用麦克间散射场噪声相关性预计办法计算前期混响成分大小,而后采纳谱减法预计增益的形式解混响。教训表明,这一类算法在降散射场噪声方面性能更优。
信号模型:
计算如下两头后果:
最初失去如下 降噪增益,施加增益至输出信号可解混响指标:
(三)综合利用
- 对于 通信工作,目前网易云信重点关注 AWPE 串接降噪的计划实现;同步思考在散射场噪声强的场景联合 CDR 克制算法晋升性能;
通信中上行必然蕴含降噪模块,解混响算法须要配合降噪实现联结调优的性能,个别通过模块和参数调试实现。
- 智能语音工作,个别采纳线性语音解混响作后期加强解决:
将来趋势:
\
三、算法实现和运算优化
对于上述第二节中算法具体实现中的关注点:
- 设置好 buffer 存取机制(波及麦克数目、历史帧数、频点等),升高计算耗时;RLS 算法留神应用 Woodbury matrix identity 规定替换矩阵求逆;
- 如公式所示,这一类统计信息能够尝试用 平滑更新机制 代替;
- 留神局部矩阵尽量采纳对角化,甚至实数化实现计算量升高;
- 能够通过表格化,频率索引缩小计算量。
——设定现实散射场噪声模型。
四、后果汇报和后续瞻望
(一)以后后果展现
以后联合降噪咱们设置解混响阶段 优先语音保真 ;以后算法解决混响能力约 800ms~1s,最重要的调试参数是: 忘记因子和 block 数目。
(二)后续瞻望
通信畛域而言:
- 忘记因子的自适应实现计划;
- 深度学习计划 实现语音解混响和降噪的交融,代替目前联合传统算法的计划。
网易云信以后优化:
将来:
参考文献
[1] Xiang, Teng, Jing Lu, and Kai Chen. “Multi-channel adaptive dereverberation robust to abrupt change of target speaker position.” The Journal of the Acoustical Society of America 145.3 (2019): EL250-EL256.
[2] Taniguchi, Toru, et al. “Generalized weighted-prediction-error dereverberation with varying source priors for reverberant speech recognition.” 2019 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA). IEEE, 2019.
[3] Tang, Xinyu, et al. “A Time-Varying Forgetting Factor-Based QRRLS Algorithm for Multichannel Speech Dereverberation.” 2020 IEEE International Symposium on Signal Processing and Information Technology (ISSPIT). IEEE, 2020.
[4] Schwarz, Andreas. Dereverberation and Robust Speech Recognition Using Spatial Coherence Models. Diss. Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU), 2019.
作者介绍
张龙,就任于网易云信音视频实验室,目前从事音频信号加强和动静增益管制等研发工作。