关于音视频:浅谈实时语音质量监控系统

明天小王学长跟大家谈谈 实时语音品质监控零碎的前世今生， 实时语音想必大家都不生疏，微信语音聊天、视频直播，生存中的例子亘古未有。

在过来的语音通信零碎中，影响语音品质的因素有很多，包含但不仅限于延时(delay)、丢包(packet loss)、包提早变动(packet delay variation)、回声(echo)、以及因为编码造成的失真。

语音品质评估办法总的来说能够分为三种：有参考主观评估办法、主观评估办法和无参考主观评估办法。

有参考主观评估办法：

是指把原始参考音视频与失真音视频在每一个对应帧中的每一个对应像素之间进行比拟。精确的讲，这种办法失去的并不是真正的视频品质，而是失真音视频绝对于原始音视频的类似水平或保真水平。最简略的办法如均方误差 MSE 和峰值信噪比 PSNR，其利用比拟宽泛。

PESQ 语音品质作为掂量语音传输性能的一个重要指标，如何失去精确、牢靠的 QoE(体验品质)评估零碎已成为以后钻研的重点，PESQ(perceptual evaluation of speech quality, 语音品质评估算法)是由 ITU 提出的基于 QoE 的语音品质评估算法，并随之成了 ITU-T P.862 规范。PESQ 算法是以后比拟风行的语音品质评估算法，说到 P.862 规范，P.861 PSQM 是最早的规范，ITU-T P.861 也叫做 PSQM，是依据 PAQM 推倒进去的一种语音品质评估体系。目前，P.862 PESQ、PESQ-WB 是利用最宽泛的有参考评估办法，最新的有参考评估办法有 P.863 POLQA，这些都是依赖无损参考信号的。

无参考主观评估办法：

语音品质主观评估钻研自七十年代以来失去了迅速倒退，国内外学者提出了数以千计的主观评估办法。主观评估次要根据的就是原始语音信号和失真语音信号的时频域或变换域的特征参数比照。其次要是针对主观评估办法的有余，人们早就心愿有主观评估办法来评估语音设施的音质，这之后许多人陆续提出了基于主观测度的主观音质评估办法。心愿采纳这些办法不便、快捷地给出被测语音零碎的语音品质评价值，只不过评估的主体是由机器硬件或软件来实现。目前国内外采纳较多的主观评估办法有 PSQM、PAMS 和 PSQM+ 等办法。其中 P.563 是最驰名的窄带无参考评估办法。像 ANIQUE+ 这样的据作者称准确度超过有参考的 PESQ，其它的还有像 E-Model/P.1201 参数域评估办法以及 xxNet 深度学习域评估办法。

主观评估办法也有许多弊病：

有参考办法：只能用在上线前
无参考办法 - 传统信号域：利用场景窄、鲁棒性差
无参考办法 - 传统参数域：仅在无限弱网条件下能够放弃精度
无参考办法 - 深度学习：利用场景和语料无限，复杂度略高

通常，咱们能够从不同方向提出各种主观语音品质评估办法，然而主观语音品质评估必须最终通过其与主观语音品质评估的相关性来确定其性能和可靠性，咱们通常通过主观和主观语音品质评估的拟合过程做出上述判断。拟合的过程是通过主观和主观语音品质评估输出不同条件下的语音主观和主观值，而后对主观和主观值进行最小二乘拟合，其中程度轴上的目标值为目标值在垂直轴上。画出语音的主客观品质评估曲线，得出主客观语音品质评估的比拟关系。人们通常应用预测的均方误差值来反映主观和主观语音品质评估的相干水平。预测的均方误差值越靠近，主观和主观语音品质评估之间的相关性越好，即，主观语音品质评估的性能越好。相同，它表明主观和主观语言品质评估之间的相关性越差，即主观语言品质评估的性能越差。

倒退到当初以线下测试的线上化为主，具备 高精度、广覆盖、低复杂度、强鲁棒等特点。

品质评估足够精确

笼罩绝大多数业务场景

不引入过多算法复杂度

和语音内容弱相干

上行链路品质评估办法： 采集 -AEC-NS-AGC- 诊断，具备独立检测 + 对立检测

特点：设施采集稳定性、回声打消能力、噪声克制能力、音量调整能力

上行链路品质评估办法： 采纳编码 - 传输 - 解码 - 播放

举一个某实验室的例子，其验证数据绘制寰球音频品质地图的外围指标有：编解码器性能、网络品质、弱网反抗算法品质、设施播放能力。

其在多弱网、多设施、多模式的测试 case 下，该办法的打分与 POLQA 的参考打分 MAE 小于 0.1 分，MSE 小于 0.01 分，误差最大值小于 0.15 分

下图是某设施某模式的多弱网测试后果

某设施某模式的多弱⽹测试后果

在这里简略说下 NOMA 吧，NOMA（Non Othogonal Multiple Access），NOMA 的实践根底叫做多用户信息论。NOMA 即非正交多址接入技术，是十分有心愿的 5G 技术。其长处是能够进步频谱效率（rate/bandwigth）和接入量，这恰好合乎了行将到来的 5G 时代的爆炸性的数据增长和接入需要。在高低路链路品质评估办法中能够利用 NOMA 技术进行一个简略的比拟。

上下行链路品质评估办法比拟

1. 用户发送功率的调配不同。

在上行 NOMA 技术中，每个用户的发送功率是受基站的总发送功率以及其余各个用户的发送功率影响的，且对于信道品质不同的用户调配的发送功率不同（信道品质差即信道增益低的用户调配得高发送功率，反之则调配得低发送功率。

上行链路是每个用户的发送功率只是受到其设施的最大的发送功率影响。且对于信道品质有差别的用户都让其应用自身最大的发送功率（即每个用户都以本人最大的发射功率来发），信道品质差别很小的状况下则会采纳在保障信道品质差的性能的同时进步信道品质好的调配办法，然而往往在这种状况下会对信道品质差的用户造成不好的影响。

2. SIC 解码程序不同。

在上行链路中，每个接收端都收到了来自基站的叠加信号，且每个接收端都有本人的 SIC 接收机，对于接管到的信号，通过间断的解码，失去各自须要的信号。对于某一个接收端来说，叠加信号传过去的时候经验的信道是一样的，所以在算速率的时候大家乘的信道增益是一样的，这个时候则先解调接管功率最大的。

而在上行链路中的解码程序则恰恰相反，因为发射用户能够了解成硬件的发射机性能没有差异，它们信道增益有高下之分，然而他们都会以本人的发射机的最大功率发射，这样间隔基站近的用户的信号到了基站那边其接管功率更大（接管功率 = 发射功率 x 信道增益），这个时候则先解调接管功率最大的（也即信道增益最大的，因为此时发射功率一样）。

解码程序：会对信道品质好的（即在接收端接管功率大的）进行优先解码；所以，在 NOMA 零碎中，不论上行还是上行，在接收端优先解调的都是在接收端的接管功率最大的。

3、用户所受烦扰不同。

在上行链路中，因为信道品质差的用户调配有高的发送功率，所以信道品质差的用户更容易在簇内对其余用户产生烦扰，即为信道品质好的用户更容易受到烦扰；

在上行链路中，因为是用户各自给基站发送信号从而产生叠加信号由基站接管，所以信道品质较差的用户比信道品质较好的更容易受到烦扰。

4、实现难易度不同。

上行链路相较于上行链路更容易实现。在 NOMA 技术中，要最终实现多用户检测和间断烦扰打消，其中间断烦扰打消须要通过 SIC 接收机辨别不同用户信号承受功率来实现。对于 上行链路 来说，是由基站发送叠加信号到用户，所以须要用户终端来实现多用户检测和间断烦扰打消技术；在 上行链路 则是由各用户将各自信号发至基站，只需在基站处实现多用户检测和间断烦扰打消技术。用户终端相较于基站而言解决能力过于无限，所以很难在用户终端实现多用户检测及间断烦扰打消。

如果对 NOMA 技术感兴趣的小伙伴能够去搜下相干论文和材料学习下，定位就是有前景的 5G 技术。

上面简略说下实时语音过程中漏回声、乐音、杂音以及音量小的起因~

漏回声的起因：

在延时抖动过程中：可能会存在线程忙碌、设施非线性重大、双设施、非因果等
大混响环境: 混响长度超出滤波器长度
采集信号溢出：导致滤波器不收敛
双讲：强依赖 NLP，容易顾此失彼

乐音、杂音起因

设施噪声：比方单频音、工频噪声、笔记本风扇声、无序杂音
环境噪声：Babble、鸣笛等
信号溢出：爆破音
算法引入：残留回声等

音量小的起因

设施采集能力弱、谈话声音小（这个占大多数）
设施播放能力弱
模仿增益、模仿 boost 增益小
数字增益小

最初在独立监测模块能够分为：啸叫检测、杂音监测、乐音检测、硬件检测四大局部。

小瞻望

在将来我认为感知、反馈和监控肯定会出现一体化，也会变得更细、更广、更快、更全；外部状态也会变得更细、体验笼罩更广、反馈速度会更快、笼罩通话也更全。也置信我国 5G 技术和实时音视频传输技术和品质评估体系会越来愈好。