关于后端:如何正确的评测视频画质

导读：本文从影响画质的因素是什么、为什么要一直晋升视频画质等问题开始，进而介绍了画质评测的重要性、影响视频画质评测置信度的因素，最初介绍了自研的画质评测零碎灵镜及其业务落地状况。
全文 5506 字，预计浏览工夫 14 分钟。

作为视频业务，常常须要：

比照不同的视频，从而确定哪个视频的画质更好，以便能够为用户带来更好的体验。
比照不同编码参数生成的视频，以便确定在哪些配置下产生的视频能带来最好的体验。
比照不同产品的视频画质，以便做到知彼知己，并在比照之中带来较好的用户体验。

总之，须要答复一个问题：到底哪个是画质最好的视频？本文将从影响画质的因素、为什么要一直晋升视频画质、画质评测的重要性、如何正确的评测视频画质、自研的画质评测零碎——灵镜来介绍咱们如何利用灵镜来主观、相信、高效的评测视频画质，进而晋升用户体验。

当咱们提及“视频”时，个别指得均是“数字视频”。视觉信号通过记录、压缩、存储能力产生咱们所说的“视频”。同时，因为 HVS(HVS, human visual system，人类视觉零碎) 的特点，在视频记录、压缩、存储的过程中，咱们能够在视觉品质损失和视频数据压缩之间做出衡量，而不影响视觉品质。

一般而言，影响视频画质的因素次要有以下几点：

分辨率：图像中的像素数量，在特定尺寸下，分辨率越高，像素越多，显示的细节则更精密。
帧率：一秒内显示的图像数量，电影的帧率个别是 24fps，规范电视的帧率通常是 30fps。
亮度：能够显示的图像照明强度的范畴，人眼能感知到的亮度范畴为 10- 3 尼特~ 106 尼特。
位深：每个像素能够显示的色彩数量，位深度越大，可显示的色彩越多，从而渐变更平滑、更天然。
色域：色域是某个特定的色调的子集，用以示意能够显示的所有色彩的范畴。色域个别应用 CIE 1931 色度图上的面积来示意，CIE 1931 曲线的边缘代表可见光光谱色彩的范畴。
码率：编码每秒视频须要的 bit 数量称之为码率（bitrate）。在肯定条件下，码率会影响视频品质，码率越低，压缩率越大，画质绝对越差。当然，并非码率越高画质越好，在很多状况下，更高的码率带来的往往却只是带宽的节约。

咱们常常认为：改善影响视频画质的诸多因素，晋升视频的画质，就会晋升用户体验，进而会晋升产品的相干用户指标。因而，本着以终为始的准则，咱们要一直晋升视频画质。

然而，事实的确如此吗？咱们是否想过如下的问题：

用户视频观看时长的减少或升高是视频画质的稳定导致的吗？
用户在观看视频时，是视频内容的影响力更大还是视频画质的影响力更大？
为什么《西游记》的画质比拟毛糙，却能循环播放 30 多年，并发明出最高 96% 收视率的奇观？
当晋升了分辨率、帧率等因素后，画量变好了，然而这同时也意味着须要耗费的带宽、算力、电量等必然会减少。在手机耗电量与画质、播放晦涩度与画质之间，用户会抉择画质优先吗？
晋升视频的分辨率和帧率还意味着带宽老本的减少，例如 4K 视频比 1080P 视频的带宽老本要高 3~4 倍。那么，对于流媒体服务商而言，如果对如上的几个问题还存疑的话，为什么要晋升画质呢？

2020 年，华纳兄弟与皮克斯等公司的双盲测试验发现，少数消费者其实并无奈分辨 8K 与 4K 的区别。

看起来，画质晋升的必要性并不强烈。既然如此，为什么还要晋升视频画质呢？为什么整个视频行业都在为了视频画质的晋升而一直致力呢？

1. 显示设施的分辨率一直降级。例如，HUAWEI Mate 40 Pro 的屏幕分辨率就达到了 2K(2772×1344) 规范。对于电视而言，8K 电视目前也成为了趋势。如果视频自身的分辨率仍然停留在 480P 时代，那么在高分辨率的屏幕上观看时，就会呈现比拟显著的马赛克效应。

2. 视频采集设施一直降级。例如，iPhone 13 Pro 能够反对 4K/60fps 的视频拍摄，即使是 Android 的千元机档位 VIVO Y53S，视频的最低拍摄分辨率也达到了 720P。在这种状况下，如果视频生产端的分辨率还停留在较低分辨率（例如 480P），那就会带来拍摄预览和回放观看体验重大不统一的问题。

3. 视频编解码算法一直降级。有多大的硬件资源，就会产生多简单的软件产品。一直进化的编解码算法为更高画质的利用提供了底层撑持。当具备了制作飞机的技术时，就不会满足与只制作自行车。

4. 不断丰富的生产级利用和玩法须要更高的画质。依据国家广电总局公布的《5G 高新视频——VR 视频技术白皮书 (2020)》（https://t.hk.uy/baZR），用于 VR 视频节目制作与替换中的视频，倡议目前最低应用 7680×3840 像素数。尤其是在元宇宙之中，要感知到色声香味触法，太差的画质是无奈达到要求的。

5. 一直减少的竞对产品。此时，视频画质的基线程度取决于处在该行业中的竞对产品。并且，视频画质曾经成为一种对外宣传的无效伎俩，例如 B 站的 4K/120fps 视频，西瓜的 4K 高清修复技术……这无形之中就会造成一种用户对视频画质的预期，当产品的画质如果低于这种预期的时候，用户体验就会升高。当然，更高的画质依赖更高性能的设施和更高的带宽。然而咱们须要明确：同样能得 100 分，能力只能到 100 分和卷面只有 100 分之间的差距是十分大的。

如前所述，泛滥起因推动视频画质一直晋升。然而，没有度量就无奈改良，没有度量也就无奈评测画质是否有晋升、晋升的水平如何。另外，在工作中，须要通过评估视频画质来确定流媒体零碎的整体要求、比照竞品提供的服务、确定端到端的视频品质等。

视频画质评估如同度量衡个别，形成视频画质晋升以及编解码器改良的基石。

4.1 主观评估

评测视频画质的不言而喻的形式就是征求用户的意见，这也就是咱们所说的：主观评估。然而，主观评估具备如下的问题：

主观评估是一个繁琐的、非自动化的过程，不可能利用主观评估来评测每个视频。
不同的个体对雷同的视频画质感知不同，因而主观评估的后果会随评估者的不同而呈现稳定。

4.2 主观评估

即便如此，主观评估依然是一种有价值的办法，并且能够为主观视频画质评估算法提供数据撑持，例如 VMAF 就是利用算法指标对主观评估建模的后果。利用算法来评估视频的画质咱们称之为：主观评估。

4.3 主、客评估之间的关系

须要留神的是，在视频画质评估畛域，尽管算法能够疾速、高效、主动的评测视频画质，然而算法也仅仅是对主观评估后果的拟合、预测。也就是说，主观评估算法必须与主观评估之间放弃感知上的一致性。

正因为如此，在理论工作中，主观算法个别用以掂量大盘数据，而对于视频编解码器的调整、编解码参数的优化等成果评估，还是会以主观评估为主。MSU Video Codecs Comparisons 大赛中，主观打分的后果也是一项重要的指标，例如 HEVC/AV1 2019 的比赛结果。作为工程师，咱们总想着用算法、模型来解决所有问题，然而，咱们必须要意识到，并不是所有的问题都能够用算法、模型来解决的。还记得《谁动了我的奶酪》中的“哼哼”吗？

视频画质主、主观评估算法这里不再过多介绍，更具体的信息能够参考《数字视频概念，办法和测量指标》（https://t.hk.uy/baZT）的视频质量指标这一章。

主观评估是画质晋升的基石，如何能力保障主观评估后果的客观性、置信度是视频画质评测的外围问题。

为了保障主观评估的置信度，ITU-T 第 9 研究组（SG9, study group 9）提出了若干倡议作为主观评估办法，例如 ITU-R BT.500。

在工作中，咱们发现：不依照规范和标准执行，主观评估的后果必定是不相信的。然而，有了规范和标准，依照规范和标准来执行主观画质评测，主观评估的后果就相信了吗？

在工作中，咱们发现，并非如此。规范提供了倡议，然而具体执行却受限于各种因素，这些受限的因素会影响最终的后果置信度。

一个看起来非常简单的事件（不就是找人来打个分吗），实际上却并不简略。

5.1 评测样本的问题

视频样本自身对视频画质主观评估的后果会产生十分大的影响，理论评测过程中，遇到的样本相干的问题次要有如下几种：

1. 评测视频工夫较长，场景变动较大。这种状况下，用户可能没有急躁看残缺个视频，或者跳跃性的观看视频，导致在评测过程中疏忽局部信息而而导致最终后果置信度较差。

2. 评测的视频中存在产品 logo。视频中的 logo 会对用户的主观评测带来额定的信息烦扰，进而烦扰到最终的评测后果。理论评测过程中，咱们也察看到视频中的 logo 的确会影响用户的主观打分。

3. 评测视频的场景覆盖率较低，或者只笼罩了局部产品场景。例如只选取了风光、人物等场景的视频，而缺失了静止类，常识类等场景的视频。

5.2 评测工具的问题

1. 视频缩放带来的误差。为了可能同时对比两个视频，一般而言，评测工具会同时播放待评估的两个视频来让用户主观打分。然而，如下图所示，当视频分辨率比拟大时（1080×1920），这种形式就会导致视频显示区域的缩放，进而导致视频中画质较差的中央因为视频显示区域的缩放而暗藏。

2. 视频重叠带来的误差。为了解决上一个问题，评估工具会减少如下图所示的重叠款式来防止缩放带来的误差问题，同时也心愿重叠形式可能更间接的比照出视频间的差别。

然而，在理论评估中，咱们发现这种看起来比拟好的形式因为存在视频画面的阶段，也会导致主观评估后果的不相信。用户在评估过程中，须要不停的拖动画面的分割线，来察看视频不同区域的画质差别。并且对于 ROI 编码的视频而言，用一个视频的区域 A 和另一个视频的区域 B 做比照，自身就十分不合理。

3. 视频静止带来的误差。和图片不同，视频是一个在工夫上间断变动的帧序列。而这种视频自身的静止和变动会在肯定水平上暗藏视频中某些帧的某些区域的画质问题。这也就是咱们常说的 HVS 的静止掩蔽效应。为了防止这种误差，尤其是对于编解码算法的研发人员，往往心愿可能对视频进行逐帧比照，以发现潜在的暗藏危险。尽管诸如 QuickTime、VLC 等播放器提供了单帧播放能力，然而评测工具却较少提供单帧比照的能力。

4. 疏忽播放设施的差别带来的误差。工作中，咱们不止一次的发现用 PC 的评估工具来评估挪动设施的播放成果的场景。利用规范和标准领导下的工具失去了一个后果，却漠视了不同设施下显示成果的差别，最终导致这个原本应该相信的后果变得十分不相信。尤其是对于 HDR 视频而言，设施的差异性会体现的更加显著。

5.3 评测者的认知差别

1. 评测者的惯性认知带来的误差。对于固定程序呈现的比照评估，咱们发现评测者总是会依据后面几对样本的后果来对前面的后果进行预测，而后依照预测的后果来打分，而不是齐全依照本人个主观感知来打分。这种预测的惯性认知会给评估带来十分大的烦扰和误差。

2. 评测者的关注焦点不同带来的误差。不同的评测者对同一画面的关注点不同而带来的评估后果稳定较大的问题在理论评估工作中经常出现。例如用户从背景、前景、亮度、美妆等不同角度来评估时，给出的打分也不雷同。

历时 2 年多，经验近 500+ 主观评估，1000+ 评估样本，1000+ 评测人员（专家和普通用户），趟过一个又一个的坑，利用技术解决理论评测中遇到的一个又一个的不相信因素，逐渐建成了目前较为相信的视频画质评估零碎——灵镜。

灵镜基于 ITU 规范，依靠自研的 10+ 项专利技术，借助百度弱小的视频根底技术，在一直实际的根底之上而造成的一款反对多端（PC，Android，iOS）评测的视频画质评测服务。

同时灵镜还提供视频画质评估的一站式服务，涵盖了：从视频生产至视频生产的全链路画质评估，画质、老本等全方位的评测以及解析。

在评测形式上，灵镜反对 PC、Android、iOS 设施上的横屏 / 竖屏，专家 / 普通用户，全屏 / 非全屏等 24 种评测模式，其中局部评测模式如下所示：

1. 单屏评测

2. 同屏重叠评测（同时反对 DCR 和 CCR 两种评估模式，并且为了保障置信度，采纳视频同区域比照的形式进行同屏重叠比照，能够滑动视频区域来抉择不同区域的视频进行比照）

3. 专家评测

4. 同屏评测

除此之外，灵镜还提供了：

摄像头 Mock 能力，实现用指定视频替换摄像头的采集数据
画质主观评估能力，例如 VMAF，PSNR，SSIM 等，对于 PSNR，灵镜还提供了空间可视化能力，以便进行更主观的评测

视频属性计算能力，例如 SITI，色度，饱和度，亮度，码率，帧率，分辨率等
视频解决 & 检测能力，例如动态帧检测，单色帧检测，音画同步检测，异样视频结构等

灵镜通过分层的思维——基础设施层、灵镜工具层、灵镜服务层，下层对上层能力进行封装，在保障应用灵活性的同时使得服务更合乎业务需要。

对于业务而言，灵镜提供了如下所示的视频画质评测服务的全流程闭环治理：

目前，灵镜曾经服务于百度 FEED，难看，直播、网盘、小度等的视频画质评测 & 检测，并施展着重要作用。同时灵镜也在实践中证实了其置信度。

接下来，咱们还将持续欠缺灵镜的能力：

单帧比照评测能力
HDR 评测体系
8K，120fps 的高分辨率、高帧率评测体系
美颜、美妆等评测体系
……

举荐浏览：

大规模 C ++ 编译性能优化零碎 OMAX 介绍

百度智能小程序巡检调度计划演进之路

挪动端异构运算技术 -GPU OpenCL 编程（根底篇）

云原生赋能开发测试

关于后端:如何正确的评测视频画质

一、引言

二、影响画质的因素是什么

三、为什么要晋升画质

四、为什么评测视频画质如此重要

五、影响评测置信度的因素有哪些？

六、画质评测利器——灵境

Just My Socks（注册教程内含优惠码）

关于后端:如何正确的评测视频画质

一、引言

二、影响画质的因素是什么

三、为什么要晋升画质

四、为什么评测视频画质如此重要

五、影响评测置信度的因素有哪些？

六、画质评测利器——灵境

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）