关于RTC:一文带你系统了解音频质量评价体系那些事

前言

近年来，线上音视频的产品状态和利用场景越来越丰盛，疫情更减速了许多行业线下转线上的布局，音视频技术也越来越受到各大厂的器重，Zoom 的股价飞升，腾讯、字节、阿里等等巨头的鼎力投入，令这个赛道的竞争越发强烈。在这个强烈的竞争环境下，所有的赛道玩家都很分明，好的音视频体验，将是决定产品胜利与否的最重要因素之一 。在本篇内容中咱们将次要围绕 音频品质评估的一些重要规范，来讲讲不同评估体系里的规范、内容、互相关联和一些个人见解。

在介绍各种评估规范和算法之前，有一个组织必须要重点介绍，ITU (International TelecommunicationUnion) 国际电信联盟简称国际电联，ITU 是主管信息通信技术事务的联合国机构，旗下有一个专门制订电信规范的分支机构 ITU-T(ITU Telecommunication Standardization Sector of ITU)。

说起音频品质的评估，它并不是当初才呈现的。早在电话创造之后，如何系统地评估语音品质就成了一个难题。ITU-T 作为通信畛域制订规范的权威机构，当然不会坐视不管，于是在 1996 年 8 月 30 日，正式推出了 P.800: Methods for subjective determination of transmission quality 规范。在这个规范外面有一个重要的指标被提出来，那就是明天被沿用最为宽泛的 主观评估规范 MOS(Mean Opinion Score)。

有些人可能感觉这个规范好简略，不就是 1-5 分的打分么？可是事实上并不是，主观的品质评估要想成为可重复使用的评估规范是很难的。不同环境、情绪、常识储备、职业、听力范畴及灵敏度等等背景的人都可能会对同一个声音给予不同的评分，甚至一个人在不同工夫和背景下对于同一段语音品质，也会给予不同的主观评分。所以光有一个 MOS 评分是远远不够的，在规范外面还举荐了多种可行的测试计划，比方在 Listening-opinion tests 测试计划中给出了 ”Absolute Category Rating” (ACR)。外面规定用短分组的不相干的句子测试，并且这些句子是通过一系列规范测试验证过的，而后在雷同的测试计划下，雷同的物理条件和传输零碎下，来比照测试的后果。这样测试计划就具备较高水平的后果一致性。而这里说的物理条件蕴含十分的粗疏，例如测试线材、噪声(底噪；环境噪声)、噪声测量的地位。其中环境噪声还分为(房间噪声、车内噪声等)。除此以外对噪声测量的地位、创立连贯、监听、仪器设备设计、对话工作等等都有一些倡议。

说白了，这个规范事无巨细地列举了所有可能对主观评分一致性产生影响的因素，用很多不相干意义的短句组，在实验室能够管制的物理条件下，让很多被测试人员在雷同环境下做比照测试，再做均匀。这样的测试能力达到一致性规范，同时也具备了可行性。

但同时咱们也发现，组织这样的一场测试耗时耗力，切实是不适宜疾速的品质验证。尽管如此，它对于明天仍然十分有意义，比方当初很多产品在通话完结后给用户的品质反馈打分，1 星到 5 星，尽管不能管制在雷同的物理条件下，然而大量的用户主观评分概率分布仍然能够绝对主观地评估产品的主观品质。

最初，主观音频品质评估规范除了给出 MOS 这个有意义的评分标准，还给出了 两个规范 MOSle 和 MOSlp，也十分有参考意义。

-MOSle-

-MOSlp-

主观评估体系建设后，因为其实现起来的高老本和低效率，并不适宜企业疾速验证零碎的音频品质，所以主观规范的需要日益扩充。这个时候须要一个能够近似人类听觉体验的主观评估体系，并且能做到尽量稳固。

做一个成熟稳固高度迫近人类听觉体验的评估规范十分难，所以主观规范的制订最后是建设在一套有参考信号的评估体系之上的。也就是评估的时候，同时须要待测信号和参考信号（不通过待测系统只通过测试设施环境回环的信号)。相较于无参考评估计划，有参考的主观评估计划更容易做得贴近主观评估体系。

但即便是有参考预计，想要全面模仿主观评估也还是比拟难的，随着算法一直倒退和欠缺，评估从只思考局部指标到思考更多指标倒退。比方在介绍 PESQ 之前，也有一些主观评估规范被推出，评估有一些局限性，如：perceptual speech quality measure (PSQM) 和 perceptual analysis measurement system (PAMS)。前者只能用于音频编码器的评估，而后者只能评估无限范畴内的失真。

PESQ

ITU-T 在 2001 年 02 月公布的 P.862 里推出了一个新的办法：Perceptual evaluation of speech quality (PESQ)，也是在一段时间内，业界宽泛应用的计划。规范里这么说道：这是多年积攒的后果，是 一款不仅实用于音频编码器，同时也适宜 end-to-end 测试音频品质的评估办法。咱们从上面几个角度谈一谈 PESQ 吧。

1、PESQ 的测试计划

PESQ 如规范的形容，能够进行端到端的音频品质测试，把参考信号 (Reference speech) line in 传入发送端(如下图是一个电话)，通过电话网络到接收端，再 Line out 传出和间接回环(图里叫做参考门路 Reference path) 的参考信号传入 PESQ 算法进行，有参考评估，最初生成 PESQ score。

须要留神的是，参考信号并非是随便选取的，规范对于输出的参考信号有较严格的限度，比方长度：8-30s 的长度，外面的每个短句不能低于 3.2s，流动语音的占比 40% 到 80%，语音音量：参考 ITU-T P.56 在 -30dBov 同时防止溢出，等等。

2、PESQ 算法流程

规范在 PESQ 算外面针对多个局部做了具体的论述，这里给出一个简略的 PESQ 的算法框架如下图：

简略来说：Time Alignment 把输出的流动语音段检测进去，再进行 delay 计算和语音分段，这个算法是能够兼容可变 delay 的。而后 PESQ Algorithm 在计算对齐的参考信号和待测信号，失去它们的频域的信号进行一些弥补后，转到响度域再依据心理声学模型，比照两个信号的感知差别。最初将差别 mapping 到相似 MOS 分值的 PESQ score，取值范畴在 -0.5 到 4.5。

3、PESQ 的有限性

1）只实用于窄带和宽带 (2005 年 P.862.2 Wide-band Extension) 音频。

2) 只用于测量 one-way 语音的失真和噪声。对于响度升高、时延、回声等等方面和双边交互相干的，都无奈评测。

3) 少数状况下评分比拟合乎主观规范后果，但局部场景下和主观测试后果有一些差距。评分后果的散布的聚合性个别。规范外面也阐明了，PESQ 是不能代替主观测试的，它只是一个具备参考意义的近似主观体验主观评估规范。

POLQA

随着工夫的倒退，更多的适用范围、更宽泛的规范也一一涌现，如 2004 年 P.563 的 3SQM，还有一个就是始终沿用到明天、在有参考主观音频品质评估畛域最新也是最大范畴被利用的在 P.863 里呈现 POLQA 规范。

1、POLQA 测试计划与算法框架

POLQA 的测试计划和 PESQ 一样，也用了参考信号来做比照，测试计划差不多。算法大框架也差距不大，然而用了全新的 Time Alignment 算法和全新的感知模型。这里就不开展了，给出一个外围模型流程图(没有包含 Time Alignment 和 Perceptual Model)：

2、重点说一下 POLQA 和 PESQ 的区别

这里转载 Pomy 在一份报告外面刻画对于两个算法的一些中央的区别：

除了两个算法外，他还专门组织了 ”Absolute Category Rating” (ACR)测试，测试了 Human、POLQA、PESQ 之间的区别，如下图：

总的来说，POLQA 不仅反对 全频带评测 ，还减少了对 响度变动的评估，全新的感知模型 评估体系使得 POLQA 和主观评测的后果更加靠近。

后面介绍了主观音频品质评测规范和主观有参考音频品质评测规范，特地是当有了主观的有参考音频品质评估规范，企业能够很不便地测试零碎的端到端音频品质，尽管不能齐全取代主观测试，可随着规范的更新，主观有参考评估规范会越来越靠近主观评估且越来越稳固。然而很多企业也发现，即便有端到端的主观有参考评估规范，仍然很难解决线上音频品质的实时监控。有没有一种指标能够在不须要参考信号的状况下，在某种程度上反馈出主观音频品质的变动呢？

ITU-T 在 2015 年 6 月公布了 G.107，给出了一种计算模型专门评估端到端传输的音频品质评估，其算法模型叫 E-model。

1、E-model 的根本算法构造和框架

E-model 是在一个评估音频设备伤害叫做”Voice Transmission Quality from Mouth to Ear”的模型根底上衍生进去的。E-model 会把通话中发送端和接收端当成嘴到耳朵的评估，把通话分成发送端和接收端，而后把能思考到一些能够量化的、对于声音品质有影响的因素都参考进来。如下图：

其中 OLR：Overall Loudness Rating，SLR：Receive Loudness Rating，RLR：Receive Loudness Rating。E-model 的传输伤害等级因子 R 的公式为：

其中：

R0：根底信号比

IS：传输时产生的同步伤害，由量化，连贯等因素影响

ID：传输的时延伤害

Ie-eff：设施伤害系数

A：劣势系数(和其余所有的传输参数都没有关系的)

每个数值的计算都比较复杂，且参数较多，这里就不一一开展了。

2、E-model 的后果 R 如何导出 MOS

3、对于 E-model 的一些感想

G.107 给咱们带来一套简单的、欠缺度也绝对较高的评估模型 E-model，这个模型在没有参考信号的状况下，把对于语音品质有影响的很多因子都思考进去了。先不说能不能齐全凑近主观测试的评估体系，对于企业的线上实时音频品质监控也具备很大的指导意义。另外也有人提供了一些改进计划，例如退出网络 jitter 的系数对评估后果产生影响，当然是不是适合也须要在实践中验证了。

以上介绍了一个音频品质主观评估规范以及两个音频品质主观有参考评估规范，以及一个音频品质主观无参考的评估规范。值得再次申明的是，主观评估规范是不能代替主观规范的。尽管随着算法的晋升，它越来越靠近主观评估，但在理论问题的优化中，主观的听感是不能代替的。当主观听感感触和主观指标产生了差别，既不能自觉置信多数人的少次测试听感后果，也不必自觉科学主观规范，陷入了削足适履场面。

关注咱们，咱们将为大家继续分享更多对于音视频的技术干货、技术摸索及最佳实际。

拍乐云成立于 2019 年，是国内第一家视频会议背景的实时互动通信云服务提供商，汇聚了一大批专一于音频、视频、网络、AI 等畛域的资深技术专家。通过 Pano SDK，企业开发者即可在寰球范畴内疾速实现互动课堂、语音聊天室、视频社交、直播连麦、游戏语音、视频客服、近程医疗、办公合作等场景。

关于RTC:一文带你系统了解音频质量评价体系那些事

01 主观音频品质评估规范：MOS in ITU-T P.800

02 主观有参考音频品质评估规范：PESQ in P.862 & POLQA in P.863

03 主观无参考音频品质评估规范：E-model in G.107

对于拍乐云