本文整顿自 OPPO HDR 研发负责人熊磊,在 RTE2021 实时互联网大会上的演讲。他通过介绍 HDR 视频规范与生态、关键技术、倒退方向三局部,分享了在挪动端 HDR 视频的落地状况以及技术细节。
▲图:OPPO HDR 研发负责人熊磊
HDR 这个词随处可见,拍照片时能够抉择 HDR,拍进去照片看起来更加清晰。看视频时能够抉择 HDR 格局播放,播出的画面显示更加亮堂娇艳。打游戏的时候,抉择 HDR 画质选项,游戏体感更加晦涩;这些技术都能够给用户带来 HDR 的体验。那什么是 HDR 视频呢?
01 HDR 视频规范与生态
HDR 视频有几个特点,首先是高对比度。通常来讲,当初能看到的 HDR 视频亮度范畴是 0.005-1000nit,但规范最高能到 1 万 nit,目前之所以视频内容没有这么高亮度是因为受限于屏幕的显示硬件规格。第二个是宽色域,目前看到的 HDR 视频色域根本都在 display P3 色域范畴内的,标准规定是最高能到 bit20,这受限于屏幕硬件。最初是高位深,常见的 HDR 视频都是 10bit 编码,一般视频是 8bit 编码,10bit 相较于 8bit 能示意的色彩品种会更多,所以色调之间的过渡会更加天然。
咱们认为,后面看到它的这些特点,同一个画面通过 SDR 和 HDR 编码进去的图像在暗部和亮部细节的比照上有比拟显著的差别,HDR 视频能保留原始画面中更多的亮部和暗部的细节,显示的成果也更加好。
在视频的拍摄和散发零碎上,HDR 视频能够更多的保留原始画面色彩信息以及亮度信息,出现给用户更好的画质感触。
见 HDR 视频标准分两大类:一类是基于 PQ 的视频规范,咱们采集到的信号须要通过二次竖立,生成元数据信息,这个元数据信息在屏显端会用做亮度映射。一类是 HLG 规范,在采集时即实现了编码,不须要做二次解决,对传统视频工作流影响比拟小,在显示时能动静适配屏幕亮度,因而它次要是用于直播和播送的场景。
上图是几个规范的比照,次要看一下左边三个规范。左边是常见基于 PQ 的几个规范,首先是 HDR10,在手机上 HDR10 规范是最常见的,也是在各个链路上被反对比拟好的。这个规范的特点是它反对的是动态元数据,不兼容 SDR 格局,也没有产品认证和版权费用。在 HDR10 根底上,三星和杜比别离开发出 HDR10+ 和 dolby vision 规范,这两个规范都减少了动静元数据,同时兼容 HDR10 格局。dolby vision 分不同的 profile,它还兼容 SDR 格局。在产品方面,这两个规范都有产品认证,在有些产品上能够看到这些认证 logo。HDR10+ 的版权费用目前发表是收费,dolby vision 会对终端厂商免费。
02 HDR 视频的业界生态
当初 HDR 视频利用次要是电影行业,让咱们通过一个电影从生产到散发到生产的工作流去更好地了解 HDR 视频生态。首先生产局部电影的拍摄,特邀解决和数字合成。而后生产进去电影内容会送到解决工作室做视频编辑、色彩调校以及导演的调色,最初生成的母版会依据散发路径不同做不同的内容格局编码。这就是一个 HDR 生态的规范工作流。
而散发这部分目前次要有两大路径,一个是直播,即常见的电影电视直播,第二个是流媒体,互联网或者 OTT 服务。最初通过不同散发路径,这些视频内容散发到不同终端上,手机、机顶盒、蓝光播放器,依据这些设施反对能力来进行 HDR 视频内容的解码和回放。
上图是一个生态全景图,对于整个生态来讲蕴含很多厂商,咱们的认知生态是以 HDR 视频规范为根底,以后面的内容生产流程为纽带,将各个厂商聚合到一起,独特发明进去 HDR 视频的消费市场。咱们比较关心的是流媒体生态,包含内容生产,散发,以及芯片和设施厂商。
对于流媒体生态的内容生产,咱们当初次要电影生产还是从好莱坞八大那边进去的,次要反对两个格局是 dolby vision,三星提出 HDR10+,这些年也有几家厂商反对。视频散发 HDR10 和 dolby vision 占绝大部分,HDR10+ 和 HLG 则别离有对应的厂商反对,在目前 Android 生态外面反对最多的还是 HDR10,dolby vision 因为免费的问题所以在 Android 生态外面基本上看不到内容,然而 dolby vision 在苹果生态会占据很大份额,三星的 HDR10+ 目前在国内没有内容,在国外有几家都是反对 10+ 格局的。
咱们次要看一下手机几个次要芯片厂商,手机当初支流芯片厂商次要是四家,高通、MTK、华为和苹果。华为和苹果都是自家芯片自家用,其中华为反对 10、10+、HLG,也反对其自家的 HDR Vivid 格局。苹果次要的反对是 HDR10 和 dolby vision。高通和 MTK 当初是 Android 手机最罕用的芯片厂商,咱们次要是反对 10、10+ 和 HLG。从芯片厂商的反对咱们能够看到,手机侧当初 Android 手机,特地是近几年手机大部分是反对 10、10+ 和 HLG 格局,苹果次要是 dolby vision。
03 HDR 视频的要害的技术点
后面看了规范和生态,接下来看一下视频规范外面几个要害的技术点。
首先是亮度,自然界的亮度和对比度范畴是挺大的,右边这个图一朵花外面最亮局部能够达到 14700nits,最暗的才 188nits,这个对比度能到大略 7000:1 的样子。但人眼能接管的亮度是无限的,过于暗的光线会导致人眼看不清物体,同时,人眼还有个个性,在不同的环境光亮度下,人眼是能够主动地调整它的瞳孔大小,以便更好的察看物体。新的 HDR 规范在定义的时候就很好地利用了人眼的这些视觉个性。
视频规范外面最根底的货色是光电转换曲线。顾名思义,把光信号转换为电信号存储起来的一个过程,该过程能够从上面亮度采集和重现过程看到。摄像机将自然界光线采集下来,通过光电转换曲线进行图样编码,最初生成数字信号,也就是人们常说的 YUV 或 RGB 数据,把这些数据送到显示端之后会做反向光电转换,将它解码成光信号,最初送到屏幕上输入,这样的话就能看到视频上的内容。不同视频规范有不同的光电转换曲线,传统视频规范及 SDR 光电转换曲线用的 Gamma 曲线。
Gamma 曲线最开始是根据传统的 CRT 亮度和电压响应关系定义进去的。尽管前面 CRT 显示设施咱们根本不必了,然而 Gamma 曲线依然作为 HDR 光电曲线在整个零碎当中保留了下来。随着咱们显示亮度范畴晋升和图像编码的晋升,Gamma 光电转换曾经不适用于 HDR 畛域光电转换,所以咱们须要定义一条新的曲线。
这个是杜比早前做过的一个试验,为了定义 PQ 光电曲线的亮度范畴,各种信号程度用户爱好度 0-1 万比特,用户爱好度超过 84%,因而杜比在定义 PQ 这条光电曲线的时候,将峰值亮度定义到了 1 万。这部分利用了人眼的视觉特效模型定义了光电转换曲线的形态,咱们发现紫色的线是人眼视觉特效模型 Barten ramp 阈值曲线,单比特光电转换曲线位于这条曲线斜坡之上时,阐明转换进去的图像可能会有量化误差。位于阈值之下的时候,编码进去的图像会平滑。一个 12 比特的 Gama 峰值量都是 1000 比特和 12 比特 PQ,峰值量是 1 万和 1000 比特,它们的曲线在 Barten ramp 这条阈值曲线上是示意成这样。Gama 在 11 比特以下大部分处于曲线之上的,因而会呈现量化误差,而 PQ 两条曲线和 Barten ramp 曲线形态比拟统一,而且都处于 Barten ramp 曲线之下,所以它不会呈现误差,而且不同亮度下位宽利用率比拟好。
咱们看右边的时候,右边是 10bit 的,把左边几个曲线往右上角平移了一下。10bit,是有量化误差的,但通常视频图像在散发过程中会做二次编码,这个编码会覆盖这部分量化误差,因而咱们当初 HDR 视频生态里用得最多的是 10bit 编码格局,这是利用不同亮度下的 Gama 和 PQ 码字利用率,有两点。第一点,PQ 在不同亮度下,在低亮局部它都保留肯定的码字,这样的话能够更好地展现低亮局部的细节,而 Gama 则没有。另外,在 1-1000 人眼常见亮度下,PQ 的码字分辨差别比拟小,编码进去的码字比较稳定。
其次是色调,10bit 编码色彩品种更多,更宽色域能显示的色彩则更多,左边 2020 色域相比 709 大很多,尤其是绿色区域,能显示更多绿色。
最初一个技术是色调映射,当初能看到的 HDR 视频通常峰值亮度都能到 1000 比特,但显示设施没有那么高的亮度,如果咱们不做任何解决间接显示内容的话,超过显示设施能力的那局部数据就会被失落掉,因而咱们在显示之前须要依据显示设施峰值亮度做色调映射,就是 tonemapping。这个 tonemapping 次要依赖于内容生产时生成的 HDR 元数据来生成这条 tonemapping 曲线。
元数据分两大类:一个是动态元数据,HDR10,次要包含内容生产时的参考显示器的亮度信息和色调信息以及最大的帧均匀亮度和最大的内容亮度。另一类是动静元数据,动静元数据是由三星和杜比别离定义的,咱们有个独特特点,是逐场景变动的元数据,每一个视频帧都携带一份动静元数据。
从下面这张图能够看出,动静元数据相比动态元数据,它在生成 tonemapping 曲线时更加灵便,它的每一帧都能够生成一条独立的 tonemapping 曲线,而动态元数据,整个文件所有帧都是共用一条 tonemapping 曲线。
最初咱们看一下 HDR10+ 规范外面的色调映射,HDR10+ 动静元数据中蕴含一部分是贝塞尔曲线的 10 个锚点,第二局部是拐点信息,第三局部是参考屏幕的峰值亮度信息。在终端屏幕上能够从新构建出一条贝塞尔曲线,这条曲线在低亮的中央是一条直线,用直线能够保留在拍摄端显示进去的暗影细节,这样的话咱们在做 tonemapping 亮度和亮度之间的关系不会有扭转。接着下面那局部是一条曲线,10+ 规范外面用的是贝塞尔曲线,贝塞尔曲线的特点是能够通过无限的锚点生成一条平滑的形态各异的曲线,这条曲线在制作的时候,导演能够依据本人想要的创作用意去调整这条曲线的形态,在人脸局部能够保障人脸细节,天空局部能够通过这条曲线保障天空的细节。最初是 Knee point,Knee point 是直线和曲线的连贯局部,通常是心愿这条直线和曲线连贯局部是平滑过渡的,也就是说直线斜率和曲线在 Knee point 一点的斜率必须是统一的,这样就能防止图像在 Knee point 点左右两边呈现 compressd 景象。
04 HDR 技术将来倒退方向
第一,在手机技术倒退有一个广泛趋势,硬件能力的小型化和业余能力往挪动端迁徙,认知 HDR 技术也是遵循这个法则,所以将来首先是手机屏幕硬件倒退,目前屏幕广泛反对亮度都是小于 1000 比特的,色域根本都在 DCI-P3,将来可能会呈现更高亮度的屏幕以及反对更宽色域的屏幕。这样的话就能显示出更好的 HDR 成果。
第二,目前的拍摄能力向挪动端演进,这个在 iPhone12 和 iPhone13 上都能看到一点趋势了,dolby vision 的拍摄到显示一整套链路的落地。
第三,将来认知图片格式可能也会有一次污染,目前的图片尽管拍照时关上”HDR,但自身图片格式是 8bit 的、Gamma 2.2 曲线的图像内容。图像内容实际上限度了当初手机上 SP 硬件的能力,因而将来可能会有新的 10bit HDR PQ 的照片规范或者格局呈现;当初在一些相机上,像佳能,它们曾经反对 10bit 的 HDRPQ 照片。有了拍摄同样也须要有显示,这个是 NETFLIX 在 XBOOK 上做的试验,将 HDR 视频里面简介画面替换成一张 HDR PQ 图片来显示,保障用户在播放视频之前看到的显示成果和视频里的显示成果是统一的,咱们认为在将来这也可能会落地到挪动端。这个落地有很多难点要解决,当初看到的最大难点是,在传统图像处理畛域有很多图样算法,这些图样算法都是基于 8bit Gamma 值解决的,如果平移到 PQ 域的话,解决进去的图像成果和以前是不是一样的,这个是要打一个问号的。
往期回顾
RTE2021 回顾丨基于 V-PCC 框架的点云视频编码与重构技术
RTE2021 回顾丨声网实时背景宰割算法钻研与利用落地
RTE2021 回顾丨智感超清:给你最优的视觉盛宴!
RTE2021 回顾丨 Flat 在线教室的开源初体验
RTE2021 回顾丨面向 RTE 场景的新一代 API 摸索和实际
RTE2021 回顾丨实时语音流动背地的品质监控
RTE2021 回顾丨一增两减,助力深度学习在实时推理场景中的利用
RTE2021 回顾丨面向 RTE 场景的新一代 API 摸索和实际
RTE2021 回顾丨实时语音流动背地的品质监控
RTE2021 回顾丨一增两减,助力深度学习在实时推理场景中的利用
RTE2021 回顾丨 WebRTC 漫漫成长路,下一个十年将走向何方?
RTE2021 回顾丨基于深度学习的音频编 / 解码的实现与落地挑战