关于音视频:智感超清之HDR技术落地实践

本文由百度智能云-视频云音视频解决技术架构师——邢怀飞，在百度开发者沙龙线上分享的演讲内容整顿而成。
内容从百度智能视频云的外围竞争力：“智感超清”登程，梳理了智能视频云相干的产品概念和技术。在具体介绍了HDR技术的概念根底上，联合相干“智感超清”能力，重点分享了HDR技术的利用实际。

文/ 邢怀飞
整顿/ 百度开发者核心
视频回放：https://developer.baidu.com/l...

本次分享的主题是：智感超清之HDR利用实际。内容次要分为以下三个局部：

智能视频云3.0 & 智感超清介绍
HDR技术概念解析
“智感超清” HDR技术利用实际

01百度智能视频云3.0&智感超清介绍

百度智能视频云3.0介绍

上图就是百度智能视频云3.0的全景图。能够用三句话概括：

第一，云智一体化
即百度目前所有的视频云产品都实现了智能化。能够看到，图中标注的局部，“智感超清视频解决”的外围能力就包含了：智能编码、智能解决、智能抽帧、版权保护。其中，“智感超清”是视频解决产品的一个外围竞争力品牌。

第二，服务平台化
联合底层的云智一体的能力，咱们搭建了两个平台：视频创作散发平台，视联网感知平台。
其中，创作散发平台面向泛媒体和泛互联网场景，能够提供端到端一站式的视频服务。而视联网感知平台，面向传统监控产业，对视频端设施和泛视频数据流进行对立接入、剖析和治理。

第三，利用场景化
联合具体的利用场景，百度智能视频云在泛互联网、泛媒体和泛产业方向提供了定制化的智能视频计划笼罩互动娱乐、内容生产、智能剖析、近程实时通信、生产治理、平安治理等场景。

“智感超清”MCP视频解决产品

以上是智感超清 MCP视频解决产品的一个性能框架图。上面简略介绍一下每一层的构造与内容。

接入层：与其余云上产品相似，MCP视频解决产品提供两个次要入口：Console、API&SDK。
用户能够通过控制台（Console）进入并进行相应的配置。而对于B端的客户，更能够灵便地采纳API/SDK的形式对产品进行拜访。

基本功能层：包含根底的云上转码的性能，也包含根本的视频剪辑/拼接/截图/字幕叠加等附件的性能。
云上转码能够把用户上传的视频进行一个全格局、全协定的转换，以满足于不同客户场景下、不同网络状况、不同终端的适配，并能够灵便的做多码流切换。

智能视频解决层：这部分是“智感超清”整个产品外围打造的能力。形象出以下三个层面介绍：

第一：智能画质晋升
通过AI的伎俩或其余传统的伎俩对输出的视频进行预处理，而后再进行转码解决，会带来比远视频更好的视觉体验。其中，智能HDR转换，也是和明天分享强相干的技术。
第二：智能老片修复
之所以把这个门类独自进去，是因为针对这些老片，咱们须要有特定的技术进行修复，以达到降级的用户体验。具体性能包含：划痕去除，噪点去除和智能上色。
第三：智能视频编辑
这一部分是根本的视频编辑能力。包含智能字幕、智能去黑边、智能去抖动等。

以上三个功能模块形成了智能视频解决的外围能力。

智能视频编码：这一层是比拟底层的视频编码能力介绍。
次要包含：内容指定编码、ROI编码、4k/8k编码、还包含百度自研的BD265编码器等。

介绍完产品框架图，咱们再介绍一下智感超清的外围竞争力在技术上如何实现。

第一局部是智能视频解决。

智能视频解决的外围指标是晋升画质。它可能通过视频预处理的形式使得在视频的分辨率、帧率、色深、色域等各个方面都能有一个较大晋升。

其中比拟外围的能力包含：SDR2HDR、超分、插帧。

在超分和插帧上都是基于AI模型。目前，在超分模型上，曾经研发了视频级别的一个超分模型；在开源数据集上，曾经达到了SOTA；在插帧的算法上，也有自研的算法，能够实现任意帧的一个插帧。

在智能老片修复上，百度也和其余的单位单干，构建了一个残缺的数据集。比拟典型的场景如：胶片上老片的物理伤害，包含其它磁带的一些伤害，“智感超清”产品通过对图像画质进行多维解决，可能在不减少视频带宽老本的状况下，实现画面质量的大幅晋升，打造视频的“极质”体验。

第二局部是智能视频编码。

智能视频编码方面，曾经研发上线了AI驱动自适应的编码。该模型能够依据视频自身内容分析，预测出最优的视频码率与分辨率，并可能与ABR协定联合，生成一组最优的编码配置。与此同时，构建了一个数百万场景级别的数据集，将VMAF当成视频品质评分的一个指标。

不仅如此，百度还自研了BD265编码器，开发了60多种算法，并思考主观驱动的算法去晋升视频的画质并节俭码率。
比照开源编码器，BD265编码器晋升了30%的码率，速度上也晋升了2~4倍。该编码器加入了去年的MSU大赛，在VMAF上也达到了top2的程度。这个是咱们后面对智能视频解决和编码的一个简略介绍。

通过后面的简略介绍，置信大家对智能视频云有一个根本的意识，并对“智感超清”产品有一个初步的理解。在下一章节，将给大家重点介绍HDR相干的技术。

02HDR技术概念解析

什么是HDR

HDR的特点能够用三个“更”字概括。

更高的亮度范畴
绝对于 SDR来说，HDR能够达到10000nits的最高亮度。这使得它可能更好地展现明暗比照，在亮度方面，更加贴近人眼的对物理世界的感官认知。（能够参考上图HDR和SDR的成果比照）
更广的色调范畴
上图左下角示例，是一个CIE 1931色调空间的表白。传统的709畛域（即：高清），可能笼罩35.9%的色调范畴，而到了2020畛域（即：超高清），曾经可能笼罩75.8%的色调范畴。

那么，如何去表白这种更宽的色调范畴呢？须要咱们更高的比特也就是更高的位深去示意。

这也对应了HDR的第三个个性：

更深的色深（位深）
基本上hdr都是在10比特，更高的要达到12比特能力达到。以上是咱们对HDR成果的一个简略介绍。

HDR端到端系统流程

之所以想介绍这个流程，是因为HDR它不是一个单点的技术概念，它涵盖了从视频的拍摄、制作、视频编码、解码、播放、传输等一系列流程。须要整个HDR技术生态上的企业相互配合，能力实现整个HDR端到端的零碎。下图形象的展现了整个零碎流程：

视频录制（光电转换）→前期加工（产生元数据）→获取HDR视频及相干的内容元数据→压缩传输→解码→显示器显示播放（电光转换）

HDR技术相干概念

光电/电光传输曲线
将自然界中实在场景转换为屏幕上显示进去的图像，须要通过两个次要步骤：
通过摄影设施，将外界光信息转换为图像信息存储。实质上存储为数字信号。
通过显示设施，将图像信息转换为屏幕输入的光信息。

整个过程中，信息流要通过两个重要的非线性映射，能力造成咱们在显示设施上看到的图像。这两个重要的非线性映射过程，咱们又称光电/电光传输曲线。

上面介绍三种常见的光电/电光传输曲线

Gamma曲线
是一种在传统的SDR显示设施上被宽泛应用的转换曲线。
对应的规范是：BT.1886，峰值亮度仅为100nits。
随着显示设施亮度范畴的晋升、图像编码bit depth的晋升，使得传统Gamma校对不再实用HDR的光电转换过程。
PQ曲线
由杜比实验室依据Barten的人眼模型提出的电光转换曲线。峰值亮度能够达到：10000nits。
长处：可能提供更高的亮度范畴。
HLG曲线
由BBC和NHK联结提出的光电转换曲线。
长处：兼容SDR的显示和播放。在广电畛域被广泛应用。

HDR元数据
定义：形容视频或图像处理过程中的要害信息/特色。产生于视频的制作阶段，次要蕴含色调和亮度两大方面信息。

分类：按形成构造上分类，可分为动态元数据和动静元数据。

动态元数据：视频中采纳繁多的元数据去管制每一帧的色调和细节，元数据并不会发生变化。易造成某些大动静场景的画面暗部或者高亮细节失落。
动静元数据：视频中的采纳变动的元数据去管制每一帧的色调和细节。通过动静元数据，咱们还能够依据用户的显示状况，利用tone-mapping （色调映射）的算法进行更多的适配。

HDR常见格局

后面也提到，HDR不是一个单点的技术概念，而是一个端到端的生态。从上述图中也能够看到，HDR的格局生态非常的简单，正是因为此，HDR的规范有些割裂，并不像视频编码一样那么清晰。若依照光电/电光传输曲线的品种来划分，能够分为以下几个大的规范类型：

HDR10：由美国CT组织牵头的一个凋谢规范。齐全开源收费。
HLG：是由BBC和NHK联合开发的高动静范畴HDR的一个规范。HLG不须要元数据，能后向兼容SDR。
HDR10+：为抗衡DolbyVision, 由三星推出的一个局部收费的规范。采纳的是动静元数据。
DolbyVision：Dolby Vision应用根本层+加强层来实现向下的兼容性。并应用动静元数据来形容所有场景。但它是一个免费规范，受权体系较为简单。
HDR Vivid：是国产的一个规范。在现有传输曲线和色调空间规范的根底上，减少动静元数据的形容，开源收费且兼容性好。

03“智感超清”HDR技术利用实际

典型超高清HDR利用需要

随着5G通信的倒退，给视频行业带来全新的改革，对应的终端能力也越来越强，互联网超高清利用空前暴发，这对超高清视频的要求也越来越高。通常，咱们所说的超高清视频包含以下六因素：

高分辨率
高帧率
色深解析
宽色域
高动静范畴
全景声音频
这其中，4K、HDR等技术贯通整个从采集、制作、出现等整个端到端的流程。

上面看一下须要如何的技术储备，能力实现如此端到端的流程？

HDR解决流程与需要剖析

内容生产：
用户拍摄HDR视频上传到云端。在这一阶段，平台须要具备以下HDR的解决能力：

HDR视频云端编辑能力
SDR素材适配
HDR中间层（Mezz）文件的编码
元数据的生成
元数据的透传

存储（压缩）/解决（传输）阶段
在HDR视频编码和解决阶段，须要以下过程：

HDR转SDR。这波及到重要的色调映射过程。
多种输出格局主动适配。
SDR转HDR。能够通过AI的形式，将SDR转换为HDR。
HDR格局互转能力。HDR的格局多样，可能反对各种HDR格局互转非常重要，如HDR10转HLG。
HDR元数据的写入、透传。在原始HDR视频根底上，是否在码率压缩后写入，这也对云端能力提出了要求。

HDR显示：
在视频播放阶段，须要肯定的策略在端上做相应的适配。具体来说，须要实现：

HDR终端视频播放
SDR终端视频播放
端上主动适配
在接下来的章节，会详细分析各项技术的实现过程。

HDR转SDR

HDR转SDR的过程实际上是一个色调映射的过程。（Tone Mapping Operator）
HDR和SDR视频的亮度空间和色调范畴都差异很大，这其中的转换过程较为简单。艰深了解，色调映射就是一个将HDR的图像或者视频，转换为SDR的图像，并在SDR显示设施正确显示的技术。
以下是典型色调映射解决的流程：

预处理
通过预处理，将图像的亮度信息转换为log域。
图像合成
通过图像的保边滤波器，将图像分解成根底层和细节层。
亮度信息提取
将提取出的根底层亮度信息通过不同的色调曲线进行压缩，并将压缩后的亮度信息加在细节层上。
后置解决
通过后置解决，进行色彩校对，失去SDR图像。
在色调映射过程中，最重要的是如何抉择不同的实现算法。这须要结合实际的利用场景。

SDR转HDR

SDR转HDR也是一个十分复杂的过程，不仅仅是变换色彩空间和动静范畴，更须要思考暗部细节加强与过曝细节的修复、对比度的晋升、色调放弃不变、色调加强解决以达到HDR的要求以及通过算法实现对噪声的管制。
在亮度方面：心愿通过SDR视频中残留的，适度曝光和曝光有余区域的信息，尽可能地复原这些区域内失落的细节。
在色调方面：通过SDR视频中受限的色调，预计出原始场景的色调，让复原出的HDR视频的色调尽可能地靠近原始场景中丰盛而实在的色调。

上图能够看到传统办法对SDR转HDR的过程，次要是通过线性转化的形式，对过曝/欠曝的区域进行重建。
目前AI的办法，在超分和加强畛域用的十分多，因为它应用的是非线性的表白，个别认为通过AI的办法能够实现SDR转HDR的更好成果。

基于AI的端到端SDR转HDR计划

特点：

采纳全局/部分信息交融的形式。
采纳Residual Connection残差学习。
Squeeze-Excitation，channer维度自注意力算法加持。
超高清预测分辨的速度快。

以下是基于AI的SDR到HDR的成果展现：

能够看到，基于AI的SDR到HDR的转换，在晋升动静范畴的同时，还补充了曝光有余区域（暗影）的局部细节。整个画面细节更丰盛，档次更明显，整体的色调饱和度上也有显著的晋升。
在AI模型的训练过程中，数据的积攒非常重要。这也是该计划在后续须要优化的中央。

HDR格局之间的转换

HDR的格局多样，所以可能反对HDR格局之间互相转换十分必要。与转码相似，HDR格局上也须要做一个对立散发。
要了解HDR格局互相转换的这个过程，须要对PQ零碎模型和HLG零碎模型有一个粗浅的了解。

PQ零碎模型

环境光通过光光转换曲线、逆电光转换曲线，变换成PQ的电信号。在显示阶段，通过电光转换曲线，变成显示光。
HLG零碎模型

环境光通过电光转换曲线，变换成hlg的电信号。在显示阶段，通过逆电光转换曲线、光光转换曲线，变成显示光。
HLG零碎模型从流程上看，根本与PQ零碎模型是相同的。

HEVC HDR反对

这部分以HEVC为例，重点介绍编码在HDR上是如何承载的。
HEVC对元数据的承载蕴含两个局部的重要信息。

VUI信息
VUI是在H.264/AVC和H.265/HEVC序列参数集中携带的元数据元素的汇合，它们独特形容了理论视频信号如何在样本流内存储和映射，包含编码信号的参数或属性、色调空间、传输曲线等。

SEI信息

SEI是用来保障SDR与HDR之间的互用性的机制的办法，用于实现在接收器或者播放器中实现间接显示或转换显示的过程。

它次要蕴含制作的描述性信息（或色调容积转换）、Tone mapping信息、Color remapping信息、Knee function信息。

对HDR元数据的解析也是十分重要的能力。只有将原视频的HDR元数据保留并解析下来，能力将解决完的元数据写入以放弃HDR的成果。

“智感超清”HDR客户落地案例

“智感超清”HDR目前曾经服务各行业的客户，满足用户需要。

在广电畛域行业，可能满足用户标清、高清到4k转换的需要。
在电影行业，通过AI技术对老片进行修复，做超高清解决，晋升整个在处理过程中的效率，降低成本耗费，同时让老旧片子真正从新焕发生命力。
在新媒体行业，依靠百度智感超清的诸多能力优化视频体验，也减少了很多视频编辑能力，包含非线编能力，极大的晋升编辑在创作内容过程中的成果。
在互联网畛域，服务于互联网视频用户，一方面晋升了视频品质，另一方面升高了带宽老本解决UGC场景下视频品质较差的问题。

以上是老师的全副分享内容。如有任何疑难，能够在留言区提出。