关于音视频:音视频专题音频质量评估方法那些事

1次阅读

共计 2224 个字符,预计需要花费 6 分钟才能阅读完成。

明天加入了声网 Agora 的《实时语音品质监控零碎的过来、当初与将来》,联合之前工作时音频解决的一些教训,分享一些本人的了解。

音频 (泛指人能听到的自然界的所有声音,人耳能听到声音的频谱范畴个别为 20~20000HZ) 和语音 (语音是指人谈话的声音,人谈话的声音频谱能量范畴大部分散布在 300~3400HZ)两者是不同的,能够看出人是能够听到比人谈话更广范畴的声音的;这就是人能够听到像乐器,自然界,尖鸣声这些声音,然而人并不能收回来。

为什么要做品质评估,起因有几个方面,比方大家除了面对面交换,在通话,刷视频,听音乐等等流动中的音频是通过了编解码压缩解决的,是为了便于更小代价的传输和存储;像原始声音中掺杂噪声的去除,原始谈话声音的加强解决等;能够看出不论是编解码解决还是其余语音解决,目标都是让人听起来更难受,因而品质评估办法就是评估在对于声音进行解决后的人听起来的感触度状况。

音频评估办法分为主观评估和主观评估。

主观评估其实就是人凭借听觉感触对语音进行打分,常见的有 MOS、CMOS 和 ABX Test;像 AB TEST 在我晚期的工作中常常应用到,比方对语音加强算法做了小的优化,想得到理论听觉的感触改善状况,就会把原始算法和优化后算法解决后的语音进行编组,让小伙伴们帮忙测试打分,以此判断是变优还是变差。国际电信联盟(ITU)将语音品质的主观评估办法做了标准化解决,代号为 ITU-T P.800.1。其中收听品质的相对等级评分(Absolute Category Rating, ACR)是目前比拟宽泛采纳的一种主观评估办法。参加评测的人员对语音整体品质进行打分,分值范畴为 1-5 分,分数越大示意语音品质最好。这种 MOS 值分数起初也利用于主观品质评估。个别 MOS 应为 4 或者更高的,会被认为是比拟好的语音品质,一旦 MOS 低于 3.6,则这个语音品质根本不太能承受。

主观评估则次要是应用算法代替人打分的工作,通过算法来评测声音的品质。在主观评估中又分为有参考评估和无参考评估。

  • 有参考评估 (intrusive method) 顾名思义,须要声音源素材进行比照,因而这种办法只能用在线下解决上,对于实时通话解决是不可能做到的;常见的有像 ITU-T P.861(MNB), ITU-T P.862(PESQ)[2], ITU-T P.863(POLQA)[3], STOI[4], BSSEval[5],
  • 无参考评估 (non intrusive method) 则不须要声音源素材,常见的有 ITU-T P.563[6], ANIQUE+[7],ITU-T G.107(E-Model)[8],基于 AI 深度学习的 AutoMOS[9], QualityNet[10], NISQA[11], MOSNet[12]等等

上面表中为支流语音编解码 MOS 值测试评分(来自 Opus 官网,起初又进去了 MOS9,即最高分为 9 分

这里重点介绍下 PESQ 和 POLQA

PESQ 属于有参考的主观评估计划,将两个音频信号作为输出,其中一个由 itu 组织提供,另一个输出为通过被测 voip 零碎解决后的输入信号。Pesq 算法通过对输出的两个信号提取时频域或变换域特征参数的差别,再将特征参数差别经神经网络模型映射失去主观的音质分值。PESQ 分值其实就是对 MOS 值的一个映射。

POLQA 算法是新一代语音品质评估规范,实用于固网、挪动通信网络和 IP 网 络 中 的 语 音 质 量 评 估。POLQA 被 ITU-T(International Telecommunication Union)确定为举荐标准 P.863,可用于高清语音、3G、4G/VoLTE、5G 网络语音品质评估。它用以代替和降级 2001 年公布的 PESQ(ITU-TRecommendation P.862)

与传统 pesq 的区别在于,POLQA 算法具备以下长处:

  • 减少对宽带(Wideband)和超宽(SuperWideband)语音品质评估的能力,反对宽带(48khz)。
  • 反对最新的语音编码和 VoIP 传输技术,针对现有的 opus、silk 编码器进行过非凡优化。
  • 反对多语言环境,各国语言都反对。ITU 组织提供规范测试语料,可进行针对性测试。

当然音频品质评估不只是评估编解码,同样还有其余因素会影响,像 VAD 传输,丢包弥补,网络品质变动(时延 / 抖动 / 丢包),甚至包含设施采集。

像上述的无论有参考和无参考,都有其利用的局限性,包含应用场景比拟窄,鲁棒性差,复杂度低等问题,而要克服上述的问题,就须要一套笼罩多场景,性能运行简直无感知的品质评估算法及体系,因而声网自行开发了一套独有的音频品质评估伎俩。包含上行品质评估和上行品质评估。

上行链路声音经验采集 -AEC(回声打消)-NS(噪声克制)-AGC(增益)处理过程,因而品质评估蕴含了设施采集稳定性 / 回声打消能力 / 噪声克制能力 / 音量增益能力的解决成果。

上行链路则次要是通过设施播放给人听,通过编解码 - 网络传输 - 弱网反抗(我了解是 VAD/PLC/ 纠错等解决)- 设施播放,最终多弱网,多设施,多模式测试下,其算法与 POLQA 误差值小于 0.15,能够说是达到了不错的成果。

对于音频品质评估,集体认为后续会依照更细化的畛域方向倒退,蕴含元素的不同,比方语音评估和音乐评估应该是属于不同的;蕴含场景的不同,比方实时在线解决和线下评估,实时处理须要高实时性,性能耗费小;而线下评估不须要这么高的要求,对于精准度则要求更高,则能够更多的利用 AI 人工智能的劣势以及算法零碎上的优化。

正文完
 0