关于测试:音视频测试实战记音视频测试那些事

2020 年一开年，疫情打乱了人们的节奏。买货色不能出门了，学校也不开学了，下班也 home office 了，在这种状况下，直播带货、在线教学、视频会议都被推上了风口浪尖。然而如果直播过程中忽然听不到主播声音或者画面，抑或者声音和画面成果很差，这必定是影响体验的。那么一款产品怎么能力在测试阶段尽可能发现问题和解决问题呢？通过这篇文章，冀望让大家理解到音视频关注的指标，对音视频的评测过程有一个根本的理解。

本文次要从三个方面开展，一是 音视频测试的目标 ，次要说音视频测试能解决的问题，比拟通用；二是从音视频的角度介绍 怎么做测试 ，包含测试维度、评估框架、整体构造和每一部分的具体内容；三是介绍这个 框架的组成和施行过程中遇到的问题。

在内容开展之前，先简要介绍一下音视频通话的根本流程：

从这个简图中能够看出，整个流程分为三局部：发送、网络、接管。

发送端各个模块的性能别离是：采集，对应麦克风和摄像头硬件，也有可能是多媒体混音或者屏幕录制的内容；前解决，美颜大家都晓得，3A 可能不太熟悉，这里是针对音视频成果做解决的模块。

编码和解码是一对逆过程：编码实现后，打包发送到网络上进行传输，到接收端进行后处理和解码播放。

音视频测试的目标

对音视频通话的流程有了根本理解后，咱们说回为什么要做测试。

这部分其实关系着咱们为什么要做音视频评测以及做了评测后能答复什么问题。大家可能都会收到来自老板的拷问，你感觉这个个性的品质怎么样？能具备上线的条件吗？置信 QA 同学都碰到过，你可能不是音视频相干的品质保障同学，然而你必定也或多或少遇到过相似的问题。

总的说来是四方面的问题，做的怎么样？有没有进步？进步多少？和竞品差距多少？总结起来是四个字——“知己知彼”，后面三项次要是答复“知己”的问题，最初一项“知彼”，其实也是建设在“知己”的根底之上。

“知己”次要是获取到基线数据，理解以后现状，这块是根底。在版本迭代过程中，基于这个数据来纵向比拟版本间是进步了还是好转了，进步或好转了多少，是版本优化的参考。这些是对本人能力的理解，孙子兵法说，知己知彼屡战屡败，咱们不光要埋头干，还要低头看看路，看看他人做的怎么样，因为最终体现竞争力的还是和竞品之间的差距。当然这里差距蕴含两层意思，正向的差距是劣势，如果是负向的就是要改良了。

对应这些问题，咱们别离须要提供哪些维度的数据作为辅助佐证呢？

要答复这 4 个问题，对于视频会议，咱们列出了多个维度的评估指标，如上表所示。

会议成果次要从根底成果和其余加强成果两方面来开展，这也是视频会议底层能力的集中体现。根底成果包含稳定性（卡顿，闪退）、清晰度（音画清晰，可懂）和晦涩度（入会工夫过长，提早大，卡顿）等；其余成果次要包含美颜和镜像、背景虚化等，还有像实用性、易用性、性能齐备度等都是间接影响用户体验的点。

除此之外，还有一些影响性能和稳定性的个性如可靠性、安全性、可维护性、可移植性、运行效率、性能的适宜性等，也都对用户体验有着不可漠视的影响，也值得关注。

本文次要针对音视频的成果开展。

如何进行音视频测试

评估维度曾经定好了，那么这些维度的指标怎么去掂量呢？说到评估框架，蕴含了评测的数据分类和汇总，最终从这些数据的演绎和总结去答复后面的问题。

从对应不同的专项来辨别，包含了 音频测试、视频测试、QoS 测试、性能和兼容性测试。基于这些维度适时地发展竞品比照测试，则能够比拟全面的答复前述 4 个问题。

音频测试次要分为 3 块，主观测试、主观测试和 POLQA 测试。

主观测试次要是主观听，针对音频算法的优化调整，关注单讲、双讲场景下的回声、音量大小以及啸叫等异常现象，还有时延状况，音画同步情况；主观测试和 POLQA 次要测试记录一些主观指标，如音频参数（码率，时延，音量大小和 POLQA 分值等），这些维度通常要笼罩不同的网络和业务场景，针对不同的算法调整状况，还要思考对不同设施的笼罩测试。

视频的评估大体也是分为 3 块，和音频测试相似，次要包含主观测试、主观测试和 vMOS，另外针对 CoDEC 还减少了离线测试。

主观测试包含清晰度和晦涩度，以及时延和音画同步测试。主观参数次要包含视频相干的参数（分辨率、码率、帧率、卡顿统计）以及 MOS 状况，CODEC 离线测试中涵盖了 PSNR 和 SSIM 以及现今比拟炽热的 VMAF 指标。

QoS 测试，并非一个独自的评测维度，更多的能够说是一个用户场景的笼罩测试。网络是业务的承载，然而理论用户的网络不可能齐全现实，也没那么坏，最终的测试抓手其实还是音视频的评测指标，以此为根底，笼罩不同的弱网和极其网络，关注音视频成果的同时，关注拥塞管制、带宽探测、以及视频模型之间的配合和调整速度。这一部分输入网络相干的基线和极限能力。

后面提到的音视频评估及 QoS 评估，最终成果都体现在 QoE 上。什么叫 QoE？说白了就是用耳朵听、用眼看。这部分间接体现在用户体验上，对于实时音视频场景来说，次要包含沟通的实时性也就是端到端时延（端到端时延，首帧工夫）、视频的清晰度和晦涩度、音频的清晰度和晦涩度（对音频的可懂度间接相干）。

人不能总是抬头走路，也要低头看看天，产品也是一样。咱们不光要实现本人的个性性能，也要看看对手们做得怎么样。因为最终决定产品好不好卖，客户买不买账，竞争力才最要害。

很多时候，如果明确的验收规范不太容易给出，同指标和竞品的比照论断是个不错的抉择。如果能战败对手，还是绝对胜利的。如果是落了上风，那要考虑一下如何优化了。事件到这里，看起来都很顺利了，测试的框架都完备了，间接补充数据不就能够了吗？然而实际上还有一些问题须要解决。

评测的维度有了，数据指标也完备了，接下来就是收集数据了，要收集数据就要筹备一套 稳固的测试环境 。测试环境其实就是模仿了一套端到端的实时音视频通信零碎，蕴含采集，蕴含网络，蕴含 渲染和显示 ，也蕴含 观察者（其实就是测试者），这其中的模块都会引入测试误差，这就是测试过程中的坑。

先说采集。同款摄像头几种不同摆放地位的视频画面无奈雷同，这只是采集引入误差的一种，其余如摄像头采集卡顿也会对最终的用户体验评估造成较大影响，导致无奈确认是因为网络导致的卡顿还是采集的起因。

摄像头的不同摆放地位，对焦状态以及光线状况，摄像头的视角和景深对画面的范畴和渲染体现影响最大。

采集带来的体验成果方面的好转包含如下：

1 采集卡顿；

2 采集变色和含糊；

3 过曝等景象导致的图像渐变。

上图所示是不同型号摄像头靠近雷同的摆放地位的画面视角差别。

网络伤害后的视频和摄像头采集稳固的画面比照，阐明卡顿不是因为摄像头引入，而是网络抗性有余导致。提到网络抗性，网络的不同拓扑构造和稳定都会影响测试后果。网络本身的丢包和抖动都会引入额定的体验回退，也不利于问题的跟踪和复现，所以稳固对立的弱网模仿环境尤为重要。

基于此，引入了基于 TC 的弱网模仿计划（如下图所示）。

显示引入的误差次要因为显示设施的差别导致，从这个图中能够显著的看出不同显示器上同一幅图像的色温差异很大。

音视频最终的成果体现在端到端的体验上，端到端的体验最终必定是体现在人的主观感触上，一千个读者心中有一千个哈姆雷特。观测者的集体视角，过后所处的环境以及集体的情绪稳定都会影响到主观成果的评判。

基于此，咱们思考把波及到主观评估的场景都录一份比照（新老版本 / 竞品比照）的音视频数据，留待主观评测打分用，基于自验的打分平台，不便的进行线上打分。

基于以上测试框架以及问题，咱们搭建了以下 评测框架，打消了可能引入误差的一些模块。

1 第一局部，摄像头（麦克风）+ 复用器，实现了同一路摄像头（麦克风）采集内容被多个 PC 设施复用的性能，这样每个 PC 上输出的摄像头内容齐全一样，也齐全同步；

2 接收端的显示通过 4K 视频合路设施投射到一台大屏 4K 电视上，同时能够通过内部存储保留一份以供备份和后续的主观 MoS 环节；

3 两头的网络和媒体服务器，把他们搭成公有的环境，独自一套测试环境应用，不受进口网络的影响，不受实验室到媒体服务器门路状况的影响，这套框架老本低廉，性价比较高。

置信这些工作做下来，从评测的维度登程，曾经可能很好地答复老板们提出来的问题了。