关于视频编码:微帧ROI视频智能编码基于人眼感兴趣区域实现极致观感体验

41次阅读

共计 1825 个字符,预计需要花费 5 分钟才能阅读完成。

“The world is too much with us”.

为了更好地意识这个纷繁复杂的世界,人类进化出了一套独特的视觉零碎——地方凹成像零碎,即当咱们看货色时,眼睛聚焦的中央会看得更加清晰,而对于四周区域只能看个大略,这种成像形式既能让咱们看清要害物体的细节,又能具备较大的视线。

例如,人在开车时,既能看清后方的路,又能兼顾两侧,这就是地方凹成像零碎的功绩。后方的路线和车辆就是人眼主观关注与感兴趣的区域,而对于周边的蓝天、草地等非关注区域,人眼并不会产生过多关注。

正是地方凹成像零碎让人类领有了非凡的视觉注意力机制,在解决简单视觉信息时,可能迅速将注意力和神经计算资源集中到场景的重要区域上。

因为这样的人眼视觉特殊性,人们在观看视频及图像时,往往会心愿主观关注及感兴趣区域可能领有较高的清晰度,而对于非关注区域,只须要达到根本视觉要求即可。

ROI 视频编码技术

ROI:Regions of Interest,感兴趣区域

基于主观品质衡量标准,在视频编码过程中,咱们能够对感兴趣区域进行低压缩比,甚至是无损压缩编码,以取得高质量的重建图像,而对非关注区域采纳较高压缩率,这就是 ROI 视频编码技术。

微帧 ROI (region of interest) encoding 是一项基于感兴趣区域的视频编码技术,即对图像中感兴趣的区域升高量化参数值,从而调配更多码率以晋升画面质量,而对不感兴趣的区域则进步量化参数值,从而调配更少码率,在不损失图像整体品质的前提下,升高视频码率。

右图:经微帧 ROI 智能编码解决后,码率不变,画质大幅晋升

ROI 视频编码码率调配的基本思路是:在视频编码前,对输出的视频场景进行视觉感知剖析以确定感兴趣区域。在编码过程中,通过调整编码参数,为感兴趣区域调配更多码率,使其领有更好的视觉品质,而其余区域则相应缩小调配的码率,因其误差敏感度较低而对整体视频品质影响较小。

在同样的码率限度下,这种码率调配计划的编码后果将会比传统的调配码率的后果有更好的主观视觉品质。

几类不同的感兴趣区域检测

1)核心区域
屏幕两头或固定其余中央的 ROI 区域,此类型 ROI 是基于教训的判断,在失常视频的拍摄手法上通常会将最重要的内容放在画面最两头。

2)人脸
人脸是人最显著的特点之一,在视频中显著地位呈现的人脸会很容易被观众留神,因而人脸是最显著的主观敏感区域。

对此 ROI 区域的编码须要先精确定位人脸,再做针对性地画质调优以及编码参数调优。微帧智能转码零碎反对标准版和超低复杂度版本人脸检测,其中标准版解决 1080p 视频均匀在 3ms 每帧以内;超低复杂度版本在 1ms 每帧以内。适配秀场、综艺、安防、影视等蕴含人脸的场景。如下图所示,标准版人脸检测即便在多人脸、遮挡、侧脸、小脸等条件下也能取得较好的检测后果。

3)人眼聚焦区域(主观感兴趣区域)

人眼聚焦区域数据集个别是通过眼动仪获取。微帧智能转码零碎反对标准版和超低复杂度版人眼聚焦区域检测。

3.1 标准版聚焦区域检测

标准版聚焦区域检测,采纳眼动仪失去训练样本,无效定位人眼汇集区域,适配绝大部分场景。

3.2 超低复杂度版聚焦区域检测

超低复杂度版聚焦区域检测,1080P 视频 CPU 单核运算工夫在 1ms 每帧以内,复杂度根本忽略不计。

4)各个块自身的主观敏感度

x264 默认的自适应量化(AQ),仅根据方差大小作为评判根据,对于方差大的块施以更大的量化因子。方差大小的鲁棒性有余,甚至都不能很好地判断平滑水平。如图示例的一维信号,左图的方差比右图更大,事实上左图是比拟平滑的。

以 RaceHorses 为例,依照 x264 中的 AQ 技术,第一行宏块,正好绿色草丛背景块的方差比拟小,而涵盖了帽子、人脸、人眼的宏块方差比拟大,导致主观敏感的人脸 / 人眼被施加了较大的 delta QP。微帧智能转码零碎辨别了易被人眼关注的规定纹理,加以爱护,在其余编码条件雷同的条件下,获得明显改善。

5G 时代的到来,人们对于视频品质的要求愈发低落,视频码率也呈现出成倍增长的趋势,这给视频经营平台短期内的 CDN 老本、用户观看体验等方面带来了微小挑战。

面对这样的挑战,人们不得不持续优化视频编码标准,以进步编码效率。除了一直推出新视频规范之外,ROI 编码等 AI 技术也变得尤为重要。微帧屡次主观测评显示,ROI 编码与传统编码相比,主观整体视觉效果都有显著晋升,在较低带宽的环境下尤为显著。ROI 编码技术既可能取得冀望的高质量画面,又放弃了较低的码率,更好地解决了码率与画质之间的矛盾。

正文完
 0