音视频技术：视频质量评价方法简介

jiezi

6 年前

视频质量评估（VQA）一直是个很活跃的研究领域，原因其一是业内一直缺少一种统一且准确的评估标准，其二是影响视频质量的因素过多，且包含很多主观因素，难以客观、定量地评价。经过这么多年的研究，已经诞生了非常多的视频质量评估方法，本文将简单地对它们进行分类及介绍。相关阅读推荐《视频直播：Windows 中各类画面源的截取和合成方法总结》
《视频直播关键技术：流畅、拥塞和延时追赶》
《短视频技术详解：Android 端的短视频开发技术》
客观质量评估方法分类首先，视频质量评估方法可分为主观测试和客观测试两大类。主观测试即通过人类肉眼观察的手段来评分，可以说是最能体现观众对视频质量感受的方法，也是其他客观评价方法的终极目标。但主观测试极端耗费人力和时间，是无法直接在工业领域应用的。
而客观评估方法，按照国际电信联盟（ITU）的建议，可以根据输入的数据类型被分为 5 大类：媒体层（Media-layer）模型、参数集层（Parametric packet-layer）模型、参数规划（Parametric planning）模型、码流层（Bitstream-layer）模型、混合（Hybrid）模型。其中媒体层模型直接使用媒体信息进行运算分析给出评价结果，而其他类型的评估方法则是根据编码参数或网络信道状态等等外部变量来评估质量。
媒体层模型的方法可以依据是否需要输入编码前的原始视频数据进一步划分为全参考（FR，Full-Reference）、部分参考（RR，Reduced-Reference）和无参考（NR，No-Reference）三类。故名思议，全参考使用完整的原始视频信号作为对比数据，而部分参考则使用经过提取的部分视频特征作为对比数据，无参考则仅使用用户得到的实际数据来评价视频质量。这三类方法的准确度和适用场合均大有不同。
Figure1 FR，RR，NR 视频质量评估的差异
全参考视频质量评估显然的，在这三类方法中，有完整的原始数据作为对比源的全参考质量评估方法结果会更加准确。但是也正因为其需要使用原始数据，实际应用时会存在较大的限制，所以一般仅在非实时的评估系统中会被使用。例如在开发过程中配置编码参数或比较不同编码器的性能时，大多会采用这类方法。
早期的全参考评估方法，一般直接使用像素差值作为衡量依据，比如均方差（MSE）、峰值信噪比（PSNR）等。这类方法计算简单，且能够一定程度反应图像的失真程度，所以至今仍然有很多应用在使用它们。
但是毕竟人类主观上不光只是依靠单个像素的差异来评价视频质量的。且不说视频中包含的大量运动信息，即便只考虑静态图像，同样的像素差值以不同的分布规律分布在不同的位置上时，对视频质量的影响也是不一样的。为了更好的评价视频质量，研究人员根据人类自然视觉上的特性，提出了许多新的评价方法。例如基于结构相似度的 VSSIM，以及综合统计了多种影响因子的 VQM 等。它们的评价结果相对前一类方法都更为接近人眼主观感受。这里借用一下出自 K.Seshadrinathan, A. C. Bovik 的文献“Motion Tuned Spatio-Temporal Quality Assessmentof Natural Videos”里的图来展示一下 PSNR，VSSIM，VQM 的区别。下方三张图横坐标为客观测试分数，纵坐标则为主观测试分数。可以看到 PSNR 的结果与主观分数差异较大，VSSIM 则存在不同类型的视频评价准确度不一的问题，VQM 相对来说结果最好。
Figure2 PSNR，VSSIM，VQM 客观评测分数与主观评测分数对比
后来，研究人员引入了基于人类视觉系统（HVS）的感知模型，进一步提升了视频质量评估的准确性。这其中比较有代表性的是 MOVIE（MOtion-based Video IntegrityEvalution）。这种方法会计算视频中物体的运动矢量，联合时域和空域的失真信息，最终得到一个符合主观感受的失真评价分数。在众多全参考视频质量评估方法中，MOVIE 属于结果较为优秀的一种。但是同时，MOVIE 的运算复杂度也要远高于前面提及的几种算法。下图横坐标为 MOVIE 应用在视频质量专家组（VQEG）数据库提供的测试序列上得到的客观评分，纵坐标为主观测试得分。
Figure3 MOIVE 客观评分与主观评分对比
部分参考视频质量评估全参考视频质量评估需要完整的原始视频信号，也就是未经压缩的像素数据。这个量级的数据一般是无法实时传输的，这也就导致无法在远程实时监测视频质量。为了解决这个问题，人们提出了部分参考的评估方法。这类方法会提取原始视频信号中某些特征值，利用它们来评价视频质量。常见的特征值有 DCT 系数、运动矢量等。作为一种介于全参考与无参考之间的折中方案，它够解决远程传输的问题，而其代价是准确度的降低。现有的部分参考质量评估方法大都仅能达到与 PSNR 准确度相当的水平。
无参考视频质量评估无参考视频质量评估不再需要失真前的数据，而仅需要和观众实际得到的相同的视频信息，就能得到一个大体的质量评分。这类方法虽然实现起来较为困难，但是一旦实现，即可很灵活地应用在视频相关的各个领域，是一种比较理想的视频质量评估手段。但是到目前为止，无参考评估仍然没有一个较为成熟的方案。一方面其评估结果的准确性与有参考的评估方法相比还有一定差距，另一方面其对视频内容有比较大的依赖性，普适性仍不能够得到保证。
不过无参考视频质量评价目前已是视频质量相关研究的重点。并且，近些年机器学习技术的进步与普及，也为解决如何在没有参考对比的前提下评价视频质量这个问题提供了新的方向。目前业界也已经有了一些借助机器学习手段来进行无参考视频质量评估的尝试，其效果如何仍有待验证。相信随着研究者们的不断探索与尝试，未来我们能够得到一种成熟的方案。
总结视频质量评估的内容非常多，本文仅仅粗略地介绍了客观视频质量评价的种类以及它们的适用场景。在实际应用时，仍需要根据实际情况来选择合适的方法。例如是否需要比较不同帧率或不同分辨率的视频质量，是否需要考虑网络抖动的影响等等。最后，用下面的分类图做一个总结：
Figure4 视频质量评估方法大致分类
另外，想要了解更多关于即时通讯和音视频技术的干货文章，可以移步网易云信博客。