共计 4011 个字符,预计需要花费 11 分钟才能阅读完成。
在实时互动场景中,视频画质是影响观众体验的要害指标,但如何实时评估视频的画质始终是个行业难题,须要将未知的视频画质用户主观体验变成可知。
未知的局部往往是最须要攻克的,声网也始终在继续摸索合乎实时互动畛域的视频画质评估办法,通过声网视频算法专家的继续钻研,正式推出了业内首个可运行于挪动设施端的视频画质主观体验 MOS 分评估模型。利用先进的深度学习算法,实现对实时互动场景中视频画质主观体验 MOS 分(均匀主观意见分)的无参考评估,咱们把这一评估体系叫做 声网 VQA (Video Quality Assessment)。
声网 VQA 是一套“评估主观视频品质体验”的主观指标,在声网 VQA 推出前对于视频品质的评估业界曾经有两种办法。第一种是主观的视频品质评估,这种办法次要利用在流媒体播放的场景中,并依据原始参考视频提供信息的多少来进行品质评估。第二种是主观的视频品质评估,传统的办法次要依赖人工观看视频并打分,尽管能肯定水平上直观反映观众对视频品质的感触,但这种仍存在耗时费劲、老本较高、主观观感存在偏差等问题。
以上两种传统的视频品质评估办法都难以实用于实时互动的场景,为了解决以上问题,声网构建了大规模的视频画质主观评估数据库,并在此基础上训练了业内首个可间接在挪动端运行的 VQA 模型,它利用深度学习算法实现对实时互动场景接收端视频画质主观体验 MOS 分的评估,解除了传统主观画质评估对人力评分的高度依赖,从而极大进步视频画质评估效率,使实时的视频品质评估成为可能。
简略来说,咱们建设了一个视频画质主观评分的数据库,再通过深度学习算法建设了一个算法模型,并基于大量视频 -MOS 分的信息进行训练,最终使用到实时互动的场景中,实现视频画质主观 MOS 分的精准模仿。但这其中的难点在于,1、如何收集数据集,即如何量化人对视频品质的主观评估;2、如何建设模型,使该模型可能运行在任何接收端,实时评估接收端画质。
收集业余、谨严、牢靠的视频画质数据集
为了保证数据集的业余、谨严与牢靠,声网首先在视频素材整顿阶段,做到视频内容自身的起源丰盛,防止评分员打分时的视觉疲劳,同时,在画质区间上尽量散布平衡,防止在有些画质区间的视频素材过多,有些画质区间的视频又过少,这样对后续打分的均值会有影响,下图为咱们在某一期视频收集到的打分散布:
其次,为了更合乎实时互动场景,声网数据集的设计十分谨严,笼罩了多样化的场景视频伤害失真类型,包含:暗光多噪点、静止含糊、花屏、块效应、静止含糊(摄像头抖动)、色调、饱和度、亮点和噪声等。打分指标也设置了 1-5 分,以 0.5 分为一个画质区间,每个区间确到 0.1,颗粒度更细并对应了具体的规范。
最初,在数据荡涤阶段,咱们按照 ITU 规范成立 ≥15 人的评分员组,先计算每个评分员和总体均值的相关性,剔除相关性较低的评分员后,再对残余评分员的评估求均值,得出最初的视频主观体验 MOS 分。尽管不同的评分员对于“好”和“坏”的相对区间定义,或者是对画质伤害的敏感水平都不尽相同,然而对“较好”和“较差”的判断还是趋同的。
建设基于挪动端的视频画质主观体验 MOS 分评估模型
收集完数据,接下来须要基于数据库通过深度学习算法来建设视频主观体验 MOS 分评估模型,使该模型可能取代人工评分。因为在实时互动场景下,接收端无奈获取无损的视频参考源,因而声网的计划是将主观 VQA 定义为接收端解码分辨率上的无参考评估工具,用深度学习的办法监控解码后的视频品质。
● 模型设计的学术严谨性:在训练深度学习模型的过程中,咱们也参考了多篇学术级的的论文(见文末的论文参考文献),例如在非端到端的训练中会对原始视频提取局部特色,咱们发现视频空间上的采样对性能的影响最大,而进行时域上的采样与原视频的 MOS 相关性最高(参考论文文献 1)。同时,影响画质体验的不光是空域的特色,时域上的失真也会有影响,其中有一个时域滞后效应(参考论文 2)。该效应对应着两个行为:一是视频画质下降时主观体验立刻升高,二是视频画质晋升时观看者体验的迟缓晋升。对此,声网在建模时也思考了这种景象。
● 挪动端超小模型参数量减少 99.1%:思考到以后很多实时互动场景利用在挪动端,声网针对性的设计了挪动端更易利用的超小模型,模型绝对大模型参数量减少 99.1%,运算量缩小 99.4%。就算是低端手机接入后,也能够无压力的跑起来,进行端上视频画质的普查。同时,咱们还实现了翻新的深度学习模型压缩办法,在基于某个轻量化版本并且放弃模型预测相关性状况下,进一步将模型参数量减少 59%,运算量缩小 49.2%。可做为通用办法,推广应用到对其余深度学习工作的模型做简化,造成一个无效的通用简化方法。
● 模型性能优于学术界公开大模型:一方面,声网 VQA 小模型的预测后果相关性与学术界公开的大模型放弃相当,甚至略优于一些大模型的后果,咱们选取了声网 VQA 的模型与学术界公开的 IQA、BRISQUE、V-BLINDS 以及 VSFA 等四种视频画质评估算法模型在两个大规模的公开数据集 KoNViD-1k、LIVE-VQC 上进行了试验,试验后果如下图:
另一方面,声网 VQA 的模型相比于学术界基于深度学习的大模型有着很大的运算劣势,咱们将声网 VQA 与 VSFA 进行了模型的参数量和运算量比照,后果声网 VQA 的参数量与运算量都远远低于 VSFA 模型。而这种性能上的劣势赋予了声网 VQA 在端上间接评估视频通话服务体验的可能性,在提供肯定准确率保障状况下,大大晋升了运算资源的节俭。
● VQA 模型具备较好的泛化能力,在深度学习算法中,泛化能力指的是算法对陈腐样本的适应能力,简略来讲就是通过深度学习办法训练进去的模型,对已知的数据训练集性能体现良好,对未知的数据测试集经过训练后也能给出正当的后果。在后期,声网 VQA 模型次要针对外部的视频会议工具以及教育场景数据为优先进行打磨,但在后续对娱乐场景测试后果相关性达到 84% 以上。良好的泛化能力将为将来基于声网 VQA 打造行业认可的视频品质评估规范建设很好的根底。
● 更实用于 RTE 实时互动场景:目前行业一些同类的 VQA 算法次要利用在非实时的流媒体播放场景,而且因为评估办法的局限性,最终的评测后果往往与用户实在的主观体验评分有肯定差距,而声网的 VQA 算法模型能够实用实时互动的泛滥场景,并且最终评估的主观视频品质分和用户的实在感官体验吻合度高。同时,声网 VQA 模型的视频数据不须要上传到服务器,可间接在端上实时运行,不仅节俭了资源,还无效为客户躲避数据隐衷问题。
从 XLA 到 VQA 是 QoS 到 QoE 指标的进化
在实时互动中,QoS 服务质量次要反馈了音视频技术服务的性能与品质,而 QoE 体验品质代表了用户对实时互动服务质量和性能的主观感触。声网此前推出了实时互动 XLA 体验质量标准,蕴含 5s 登录成功率、600ms 视频卡顿率、200ms 音频卡顿率、<400ms 网络延时这四项指标,每个指标的月度达标率均需超过 99.5%,XLA 的四项指标次要反馈了实时音视频的服务质量(QoS)。声网 VQA 能够更直观的反馈用户对视频画质的主观体验品质(QoE),也代表着实时互动品质评估指标将实现从 QoS 到 QoE 的进化。
而对于企业客户与开发者而言,声网 VQA 也能够赋能多重价值:
1、企业选型避坑,很多企业与开发者在筛选实时音视频服务商时,会将几段音视频通话 Demo 的主观感触或者简略的接入测试作为选型规范,声网 VQA 的推出能够帮忙企业在服务商选型时多了一种可量化的评估规范,更清晰地理解服务商的音视频品质在用户侧的主观体验评估。
2、帮忙 ToB 企业为客户提供视频品质评估工具,对于提供企业级视频会议、合作、培训,以及各类行业级视频零碎的企业能够通过声网 VQA 无效量化视频画质,帮忙企业更直观、可量化地展示本身产品服务的画质品质。
3、助力产品体验优化 , 声网 VQA 将实时互动中本来未知的用户主观体验变成可知,无疑将帮忙客户对产品端的体验评估、故障检测带来很大的帮忙,只有更全面的理解主观的服务质量指标与主观的用户体验品质,能力进一步优化产品体验,最终晋升用户端的体验。
将来瞻望
接下来,声网 VQA 还有很长的路要走,例如用于模型训练的 VQA 数据集,多由时长为 4~10s 不等的视频片段组成,而理论通话中需思考远因效应,仅通过对视频片段线性追踪、打点上报的形式,或者无奈精确拟合用户整体的主观感触,下一步咱们打算综合思考清晰度、晦涩度、互动延时、音画同步等,造成时变的体验评估办法。
同时,将来声网 VQA 也无望进行开源,咱们心愿与行业厂商、开发者一起推动 VQA 的继续演进,最终造成 RTE 行业认可的视频品质主观体验评估规范。
目前声网 VQA 已在外部零碎迭代打磨中,后续将逐步凋谢,并打算同步在 SDK 集成在线评估性能,并公布离线测评工具。如您想进一步理解或体验声网 VQA,可点击下方的浏览原文留下您的信息,咱们将与您做进一步的沟通。
附学术论文参考文献:
[1] Z. Ying, M. Mandal, D. Ghadiyaram and A. Bovik, “Patch-VQ:‘Patching Up’the Video Quality Problem,” 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, TN, USA, 2021, pp. 14014-14024.
[2] K. Seshadrinathan and A. C. Bovik, “Temporal hysteresis model of time varying subjective video quality,” 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Prague, Czech Republic, 2011, pp. 1153-1156.