关于视频编码:微帧自研客观评价模型与主观DMOS分数拟合的分享与实用性探讨

26次阅读

共计 3048 个字符,预计需要花费 8 分钟才能阅读完成。

去年咱们发过一篇文章《综合多项指标评估视频品质,能力更靠近主观感触》,指出了不同主观评估指标的“喜”与“忧”,并示意“在日常评估视频品质时,单看一组指标数据容易产生误差,需综合多项指标,能力更靠近主观感触”,失去了业内泛滥同仁的认同。

但文中没有谈及人眼间接观测的主观品质评估,是因为主观评估的工夫老本极高、观看环境要求刻薄、存在个体差异、且无奈实时监测,不适宜在日常中做编码器的视频品质评估规范。主观评估办法的诞生,就是为了精确化形容人眼的主观感触。

那么,主观评估办法的准确性,如何掂量?主观指标体现很好,主观感触就肯定好吗?

尽管主观评估办法是让计算机尽量从人的主观视角登程来预测特定视频的评分,但不同主观评估指标与主观感触的合乎水平差距不同,因而须要通过主观评估模型与主观评估 DMOS 分数的非线性拟合后果,基于预测的准确性、一致性、稳定性、枯燥性来掂量该主观评估办法的好坏。

· 准确性:指主观评估打分和主观评估指标分数的相似性;
· 一致性:指不应仅对某种类型的视频 / 图像体现良好,而应该对所有类型的视频 / 图像都能够体现良好;
· 稳定性:指对同一视频 / 图像每次评估的后果数值应该雷同或误差在可接管的范畴内;
· 枯燥性:指评估分数应该随 DMOS 分的增减出现相应的单增或单减。

实际上,在日常实操过程中,主客观之间拟合的重要性不容小觑,除了可能掂量一个主观评估指标自身的好坏,更能帮忙咱们全方位地评估画面质量,使得各主观指标的主观感触趋于对立;另外,也能帮忙咱们为参数设置提供根据,在均衡压缩率与画质时,便于决策。

接下来就向大家分享一下微帧在日常训练中所做的拟合办法,并探讨一下其中的实用性。

主观品质评估

主观评分个别是由均匀主观得分 (mean opinion score, MOS) 或均匀主观得分差 (difference mean opinion score, DMOS) 来示意。

MOS,形容的是受损视频序列的均匀主观得分,是通过对观察者的评分归一化来判断图像品质。

$$
MOS=\frac{1}{N}\sum_{i=1}^{N}S(i)
$$

其中,N 为参加评分的人数,S(i)为第 i 集体的评分

DMOS,形容人眼对无失真图像和有失真图像评估得分的差别取平均值,它更贴切的形容受损视频和原始视频的差别。

$$
DMOS=MOS_{src}-MOS_{dst}
$$

微帧依据日常训练做的拟合办法:

映射函数

个别状况下主观指标与主观指标都是枯燥函数,所以须要做一个映射函数,使得主观分尽可能与主观分靠近,记主观分为 x,主观分为 y,也就是拟合某种函数关系:

$$
y=f(x;p)
$$

其中 p 为待拟合的参数 

f(x;p)通常有 3 种模式:多项式、分式或者带一次项的 Logistics 曲线。因为 Logistics 曲线的拐点较少,数值稳定性要好于多项式和分式,所以个别都是用其进行拟合,其模式如下:

$$
f(x)=a\tanh(kx+u)+bx+c,\quad k>0
$$

其中 tanh(x)为双曲正切函数

$$
tanh(x)=(e^x-e^{-x})/(e^x+e^{-x})
$$

主观指标与主观指标的映射个别要思考如下几个束缚:

 1)误差最小化
这是所有函数拟合都须要思考的一个最根本的约束条件,就是要拟合后的函数值尽可能迫近主观分,写出公式的模式:

$$
E_{data}=\sum_{i=1}^n(f(x_i;p)-y_i)^2
$$

 2)枯燥性统一
个别状况下咱们须要主观分满足枯燥递增或枯燥递加,这个是很容易了解的,像 SSIM 这种主观分越大主观越好,对应的就是枯燥递增函数;或是 MSE 这种主观分越小,主观越好的就是枯燥递加。对于枯燥递加的状况只须要把主观分取个相反数就变成了枯燥递增,所以只须要思考枯燥递增就能够了。写成公式的模式就是:

$$
f_x(\hat{x}_k;p)\ge 0
$$

\(其中 \hat{x}_k 的第 k 个采样点 \)

对于多项式或分式模式的拟合函数,极值点个别不好间接求解,简略的办法就是在定义域内平均取点代替极值点,取的点越多计算量越多,准确性也越高;对于 Logistics 曲线则更为简略,因为其导函数为钟形曲线,所以其导数的最小值只会在两个端点,或是 x=-u/k 处取到,只有保障这 3 个点的导数都不小于 0 即可。

3)端点一致性
端点一致性就是思考两种极其的状况主观分和主观分应该是一样的(主观分和主观分都提前归一化到 [0,1] 区间),也就是主观分为 0 或 1 的时候,对应的主观分也应该是 0 和 1,写成公式的模式就是:

$$
\begin{cases}
f(0;p)=0\\[1.5ex]
f(1;p)=1
\end{cases}
$$

总体误差函数
最终总体误差函数为一个带束缚的模式:

$$
\min\quad E=\sum_{i=1}^n(f(x_i;p)-y_i)^2\\ \quad \quad \\s.t.\quad f_x(\hat{x}_k;p)\ge 0,\quad k=1,2,..\\ \\f(0;p)=0\\ \\f(1;p)=1\\
$$

上式是一个带束缚的最小二乘问题,能够转换为无约束的模式,而后用非线性最小二乘的求解算法进行求解。

应用上述办法对开源数据集进行拟合的后果: 公式及图例中的 DMOS 理论 =100 – DMOS 规范,为了不便表白,均用 DMOS 代替。 散点图中散点越集中,越靠近拟合曲线,阐明主观模型与主观感知的一致性越好。① SSIM – DMOS 数据集采纳的 LIVE-release2 中的 jpeg 和 jpeg2000,拟合公式如下(上面两个公式均可):

 

②PSNR – DMOS 数据集采纳的 LIVE-release2 中的 jpeg 和 jpeg2000,拟合公式如下(上面两个公式均可):

 

③VMAF – DMOS 数据集采纳的 LIVE-release2 中的 jpeg 和 jpeg2000,拟合公式如下(上面两个公式均可):

最初总结并探讨实用性,表明几个观点:

1)拟合可更便捷剖析品质差别。  主观分数与主观变动大抵呈线性,才更便于了解剖析品质差别。比方对于原始的 PSNR,当分数在 20~40 之间变动时,主观变动显著,而分数在 50 分以上时,主观简直没变动。尤其对于 SSIM,平时咱们计算出来的 SSIM 个别都在 0.9 以上,而两图之间的 SSIM 分数差距仅在 0.00x 或 0.000x 之间,相差太小,剖析起来十分不不便,通过拟合做完映射之后,千分之一的比照就能够变成十分之一的比照。如下图,0.001 的 SSIM 分值差别在主观上体现为约 0.5 的差别(图例进行了放大解决,理论中 0.001 的分值差在 SSIM 轴体现极小)。

2)拟合能将各个主观评估指标进行对立解决。各个主观指标对主观评估的尺度不同,SSIM 的取值范畴为 0~1,PSNR 的取值范畴为 0~+∞(个别会限度最大值为 100),VMAF 的取值范畴为 0~100,同样是相差 0.01,在 SSIM 这里曾经是十分微小的差别,在 PSNR 和 VMAF 那里又是能够疏忽的,这样单纯查看各指标分数来综合判断品质,准确度有所欠缺,但通过拟合就能够让各主观指标都映射到主观分数上,进行对立解决、判断。

3)为参数设置提供根据。繁多给出一个主观分无奈理解主观程度,比方 80 分以上可能主观还能够,95 分以上示意十分不错。当咱们调整了一个参数,SSIM 进步了千分之一,对主观影响大略又有多少?但凭教训可能也无奈判断。0.9 分时候的千分之一,和 0.95 分时候的千分之一,对主观影响也很不一样。通过映射到主观分数,可判断是否还有进一步向下压缩的空间,能够更好地领导编码器调整参数。

正文完
 0