关于阿里云开发者:浅谈语音质量保障如何测试-RTC-中的音频质量

47次阅读

共计 3006 个字符,预计需要花费 8 分钟才能阅读完成。

简介:日常音视频散会中咱们或多或少会遭逢这些场景:“喂喂喂,能够听到我谈话吗?我听你的声音断断续续的”,“咦,我怎么能够听到回声?”,“太吵啦,我听不分明你在说啥”等等。这些语音品质问题影响音视频散会体验,如若是重要的会议,那足够让人“恼羞成怒”。那么如何无效的缩小这些问题产生呢?本系列文章就将为大家分享阿里云视频云在保障 RTC 语音品质方面的测试教训。

作者|柯淮
审校|泰一

背景介绍

音频品质是指失常网络下的 听觉品质 音频 3A 算法品质。听觉品质,是在无损网络状况下人耳对语音优劣的主观感触。但在理论生存中,不同人对同一声音可能会有不同的优劣判断,另外还会受到收听环境和收听心理影响。在测试时,咱们能够从声音三要素:响度、音高、音色纬度登程,对一些指标进行量化评估。另外业内规范还会将这些量化指标通过肯定的加权解决以冀望拟合主观感触,比方 POLQA、PESQ 等。

音频 3A 算法是指:

AGC: Automatic gain control(自动增益管制)

ANS: Adaptive noise suppression(噪声克制)

AEC: Acoustic echo cancellation(回声打消)

这部分内容公众号中已有较多文章较具体介绍原理及实现,这里不再赘述。

往期文章

详解 WebRTC 高音质低延时的背地 — AGC(自动增益管制)

硬货专栏 |深入浅出 WebRTC AEC(声学回声打消)

本系列文章将从 音频品质、适配测试、Qos 品质、自动化计划 四个维度去介绍阿里云视频云如何保障 RTC 语音品质,本文先介绍音频品质局部(失常网络下的听觉品质和音频 3A 算法品质)。

RTC 语音测试链路拆解

在正式测试前,咱们先理解 RTC 语音传输的整个链路框架图,声音通过麦克风采集,而后上行音频算法进行前解决,编解码传输后通过扬声器播放进去。若想测试上行音频算法可在(1)处输出声音,而后在(2)处拉取输入音频进行剖析。零碎测试时,咱们往往从端到端角度评估,即从(1)处输出声音而后在(4)拉取声音进行剖析,本文后续测试方法均基于端到端。

音频品质测试计划

阿里云视频云采纳业内罕用的主观指标 + 主观评估相结合的办法来保障音频品质,具体指标请参考下图:

主观测试方法

无效频宽

Line in 输出扫频文件 +48K 采样率的人声音频(音频素材参考如下),Line out 录制输入音频,通过频率剖析读取无效频宽;

端到端提早

办法一:应用 VQT 测试,测试后果中输入延迟时间。

办法二:自研。Line in 测试素材,Line out 录制未通过传输及输入音频,计算音频延迟时间。

  • 测试素材:一段间断的单音。
  • 指标计算:录制文件中读取未通过传输的音频起始工夫记为 t1,读取通过会议传输的音频起始工夫记为 t2,则 Delay=t2-t1。

ANS

考查 ANS 算法在纯噪声和语噪混合场景下的体现,剖析指标蕴含:降噪一致性、信噪比晋升、收敛工夫、消噪前人声音质。

测试拓扑

通过音量 Line in 或者外放输出背景素材及语音素材,在拉流端 Line out 录制输入音频进行指标剖析。

测试素材

指标计算
  1. 信噪比晋升:求取通过消噪后音频的信噪比为 A,则信噪比晋升值 =A- 输出信噪比。
  2. 降噪一致性:计算各种噪声输出后噪声的残留值,并统计各种噪声下噪声残留是否统一。
  3. 收敛工夫:记录噪声能量开始降落的工夫为 t1,记录噪声已收敛至安稳的初始工夫 t2,收敛工夫 =t2-t1。
  4. 音质:革新 VQT POLQA 测试脚本,计算不同信噪比输出下输入音频 MOS 分。下表展现输出信噪比为 10dB 带噪人声,输入音频音质 MOS 分:

AGC

考查 AGC 算法在不同音量下体现,剖析指标包含:声音平稳性、输入响度。

测试拓扑

参考 ANS 测试拓扑图,通过音量 Line in 或者外放输出语音素材,在拉流端 Line out 录制输入音频进行指标剖析。

测试素材

指标计算
  1. 声音平稳性:计算输入音频各音量段的均匀 RMS,而后求解这个输入音频的均匀 RMS 的方差。如下是均匀 RMS 的计算公式:

  1. 输入响度:Line out 形式计算输入音频的均匀 RMS;外放形式应用规范声压计,以 A 计权形式记录响度值。
  2. 音质:革新 VQT POLQA 测试脚本,计算不同音量输出下输入音频 MOS 分。下表展现大中小音量输出下,输入音频音质 MOS 分:

AEC

考查 AEC 算法单讲和双讲场景下是否存在漏回声、人声克制等问题。

测试拓扑

【单讲】

推流端播放单讲语音素材,拉流端默认配置放在空阔会议室中。Line out 录制推流端的输入,判断拉流端是否存在漏回声。

【双讲】

同时向推流端和拉流端播放双讲测试素材,Line out 录制推流端的输入,判断拉流端是否存在漏回声和人声克制。

同时向推流端和拉流端播放双讲测试素材,Line out 录制推流端的输入,判断拉流端是否存在漏回声和人声克制。

测试素材

指标计算
  1. 漏回声:读取录制音频文件的人声残留量,实践上该处值为 0- 没有漏回声。
  2. 人声克制:双讲场景下评估此指标。利用 3gpp TS 26.132 规范评估剪切状况,最终评估以 D 类(间断剪切大于 150ms)为规范,值越靠近于 0 品质越好。
  3. 收敛工夫:测试开始工夫记为 t1,AEC 收敛实现无漏回声呈现工夫记为 t2,收敛工夫 =t2-t1。
  4. 人声音质:双讲场景下评估此指标。革新 VQT POLQA 测试脚本,计算双讲场景下人声的音质得分。

STOI

短时主观可懂度,以后学术上比拟准确,牢靠的主观评估办法来计算语音可懂度,主观测试后果能够肯定水平上反映语音可懂性和自然性。存在局限性:需降采样到 16K 进行计算。

  • 测试拓扑:参考 ANS 测试拓扑。
  • 测试素材:ITU-P863 提供规范人声素材。
  • 指标计算:如下框架图展现了 STOI 计算流程,以后业内已有 matlab 和 python 对该算法的工程实现。

POLQA

ITU-T P.863 提供测试方法,可失去 MOS 分和音频提早。反对 8K、16K、48K 测试,局限性是设施贵。

  • 测试拓扑:参考 ANS 测试拓扑。
  • 测试素材:ITU-P863 提供规范人声素材 &VQT 内置语音测试素材。
  • 指标计算:POLQA MOS 分。

PESQ

ITU-T P.862 提供测试方法,可失去 MOS 分,局限性是仅可反对 8K 和 16K。

  • 测试拓扑:参考 ANS 测试拓扑。
  • 测试方法:测试素材:ITU-P863 提供规范人声素材。
  • 指标计算:PESQ MOS 分

主观测试方法

采纳“YD/T 2309 音频品质主观测试方法(ITU-R BS.1284)”中提及的评分规定和维度,在不同场景下为专家和普通用户进行打分测试。

评分办法

评估维度

测试场景

测试素材采纳“惠威试音碟”和“TUT-acoustic-scenes-2017-development”。

本文为 RTC 音频测试系列的第一篇,后续咱们将从适配测试、Qos 品质、自动化计划的维度去介绍阿里云视频云如何保障 RTC 语音品质,欢送关注公众号「视频云技术」。


「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实际技术文章,在这里与音视频畛域一流工程师交换切磋。公众号后盾回复【技术】可退出阿里云视频云产品技术交换群,和业内大咖一起探讨音视频技术,获取更多行业最新信息。

版权申明:本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。

正文完
 0