关于音视频:智感超清之HDR技术落地实践

本文由百度智能云 - 视频云音视频解决技术架构师——邢怀飞，在百度开发者沙龙线上分享的演讲内容整顿而成。
内容从百度智能视频云的外围竞争力：“智感超清”登程，梳理了智能视频云相干的产品概念和技术。在具体介绍了 HDR 技术的概念根底上，联合相干“智感超清”能力，重点分享了 HDR 技术的利用实际。

文 / 邢怀飞
整顿 / 百度开发者核心
视频回放：https://developer.baidu.com/l…

本次分享的主题是：智感超清之 HDR 利用实际。内容次要分为以下三个局部：

智能视频云 3.0 & 智感超清介绍
HDR 技术概念解析
“智感超清”HDR 技术利用实际

上图就是百度智能视频云 3.0 的全景图。能够用三句话概括：

第一，云智一体化
即百度目前所有的视频云产品都实现了智能化。能够看到，图中标注的局部，“智感超清视频解决”的外围能力就包含了：智能编码、智能解决、智能抽帧、版权保护。其中，“智感超清”是视频解决产品的一个外围竞争力品牌。

第二，服务平台化
联合底层的云智一体的能力，咱们搭建了两个平台：视频创作散发平台，视联网感知平台。
其中，创作散发平台面向泛媒体和泛互联网场景，能够提供端到端一站式的视频服务。而视联网感知平台，面向传统监控产业，对视频端设施和泛视频数据流进行对立接入、剖析和治理。

第三，利用场景化
联合具体的利用场景，百度智能视频云在泛互联网、泛媒体和泛产业方向提供了定制化的智能视频计划笼罩互动娱乐、内容生产、智能剖析、近程实时通信、生产治理、平安治理等场景。

以上是智感超清 MCP 视频解决产品的一个性能框架图。上面简略介绍一下每一层的构造与内容。

接入层：与其余云上产品相似，MCP 视频解决产品提供两个次要入口：Console、API&SDK。
用户能够通过控制台（Console）进入并进行相应的配置。而对于 B 端的客户，更能够灵便地采纳 API/SDK 的形式对产品进行拜访。

基本功能层：包含根底的云上转码的性能，也包含根本的视频剪辑 / 拼接 / 截图 / 字幕叠加等附件的性能。
云上转码能够把用户上传的视频进行一个全格局、全协定的转换，以满足于不同客户场景下、不同网络状况、不同终端的适配，并能够灵便的做多码流切换。

智能视频解决层：这部分是“智感超清”整个产品外围打造的能力。形象出以下三个层面介绍：

第一：智能画质晋升
通过 AI 的伎俩或其余传统的伎俩对输出的视频进行预处理，而后再进行转码解决，会带来比远视频更好的视觉体验。其中，智能 HDR 转换，也是和明天分享强相干的技术。
第二：智能老片修复
之所以把这个门类独自进去，是因为针对这些老片，咱们须要有特定的技术进行修复，以达到降级的用户体验。具体性能包含：划痕去除，噪点去除和智能上色。
第三：智能视频编辑
这一部分是根本的视频编辑能力。包含智能字幕、智能去黑边、智能去抖动等。

以上三个功能模块形成了智能视频解决的外围能力。

智能视频编码：这一层是比拟底层的视频编码能力介绍。
次要包含：内容指定编码、ROI 编码、4k/8k 编码、还包含百度自研的 BD265 编码器等。

介绍完产品框架图，咱们再介绍一下智感超清的外围竞争力在技术上如何实现。

智能视频解决的外围指标是晋升画质。它可能通过视频预处理的形式使得在视频的分辨率、帧率、色深、色域等各个方面都能有一个较大晋升。

其中比拟外围的能力包含：SDR2HDR、超分、插帧。

在超分和插帧上都是基于 AI 模型。目前，在超分模型上，曾经研发了视频级别的一个超分模型；在开源数据集上，曾经达到了 SOTA；在插帧的算法上，也有自研的算法，能够实现任意帧的一个插帧。

在智能老片修复上，百度也和其余的单位单干，构建了一个残缺的数据集。比拟典型的场景如：胶片上老片的物理伤害，包含其它磁带的一些伤害，“智感超清”产品通过对图像画质进行多维解决，可能在不减少视频带宽老本的状况下，实现画面质量的大幅晋升，打造视频的“极质”体验。

智能视频编码方面，曾经研发上线了 AI 驱动自适应的编码。该模型能够依据视频自身内容分析，预测出最优的视频码率与分辨率，并可能与 ABR 协定联合，生成一组最优的编码配置。与此同时，构建了一个数百万场景级别的数据集，将 VMAF 当成视频品质评分的一个指标。

不仅如此，百度还自研了 BD265 编码器，开发了 60 多种算法，并思考主观驱动的算法去晋升视频的画质并节俭码率。
比照开源编码器，BD265 编码器晋升了 30% 的码率，速度上也晋升了 2~4 倍。该编码器加入了去年的 MSU 大赛，在 VMAF 上也达到了 top2 的程度。这个是咱们后面对智能视频解决和编码的一个简略介绍。

通过后面的简略介绍，置信大家对智能视频云有一个根本的意识，并对“智感超清”产品有一个初步的理解。在下一章节，将给大家重点介绍 HDR 相干的技术。

HDR 的特点能够用三个“更”字概括。

更高的亮度范畴
绝对于 SDR 来说，HDR 能够达到 10000nits 的最高亮度。这使得它可能更好地展现明暗比照，在亮度方面，更加贴近人眼的对物理世界的感官认知。（能够参考上图 HDR 和 SDR 的成果比照）
更广的色调范畴
上图左下角示例，是一个 CIE 1931 色调空间的表白。传统的 709 畛域（即：高清），可能笼罩 35.9% 的色调范畴，而到了 2020 畛域（即：超高清），曾经可能笼罩 75.8% 的色调范畴。

那么，如何去表白这种更宽的色调范畴呢？须要咱们更高的比特也就是更高的位深去示意。

这也对应了 HDR 的第三个个性：

更深的色深（位深）
基本上 hdr 都是在 10 比特，更高的要达到 12 比特能力达到。以上是咱们对 HDR 成果的一个简略介绍。

之所以想介绍这个流程，是因为 HDR 它不是一个单点的技术概念，它涵盖了从视频的拍摄、制作、视频编码、解码、播放、传输等一系列流程。须要整个 HDR 技术生态上的企业相互配合，能力实现整个 HDR 端到端的零碎。下图形象的展现了整个零碎流程：

视频录制（光电转换）→前期加工（产生元数据）→获取 HDR 视频及相干的内容元数据→压缩传输→解码→显示器显示播放（电光转换）

光电 / 电光传输曲线
将自然界中实在场景转换为屏幕上显示进去的图像，须要通过两个次要步骤：
通过摄影设施，将外界光信息转换为图像信息存储。实质上存储为数字信号。
通过显示设施，将图像信息转换为屏幕输入的光信息。

整个过程中，信息流要通过两个重要的非线性映射，能力造成咱们在显示设施上看到的图像。这两个重要的非线性映射过程，咱们又称光电 / 电光传输曲线。

上面介绍三种常见的光电 / 电光传输曲线

Gamma 曲线
是一种在传统的 SDR 显示设施上被宽泛应用的转换曲线。
对应的规范是：BT.1886，峰值亮度仅为 100nits。
随着显示设施亮度范畴的晋升、图像编码 bit depth 的晋升，使得传统 Gamma 校对不再实用 HDR 的光电转换过程。
PQ 曲线
由杜比实验室依据 Barten 的人眼模型提出的电光转换曲线。峰值亮度能够达到：10000nits。
长处：可能提供更高的亮度范畴。
HLG 曲线
由 BBC 和 NHK 联结提出的光电转换曲线。
长处：兼容 SDR 的显示和播放。在广电畛域被广泛应用。

HDR 元数据
定义：形容视频或图像处理过程中的要害信息 / 特色。产生于视频的制作阶段，次要蕴含色调和亮度两大方面信息。

分类：按形成构造上分类，可分为动态元数据和动静元数据。

动态元数据：视频中采纳繁多的元数据去管制每一帧的色调和细节，元数据并不会发生变化。易造成某些大动静场景的画面暗部或者高亮细节失落。
动静元数据：视频中的采纳变动的元数据去管制每一帧的色调和细节。通过动静元数据，咱们还能够依据用户的显示状况，利用 tone-mapping（色调映射）的算法进行更多的适配。

HDR 常见格局

后面也提到，HDR 不是一个单点的技术概念，而是一个端到端的生态。从上述图中也能够看到，HDR 的格局生态非常的简单，正是因为此，HDR 的规范有些割裂，并不像视频编码一样那么清晰。若依照光电 / 电光传输曲线的品种来划分，能够分为以下几个大的规范类型：

HDR10：由美国 CT 组织牵头的一个凋谢规范。齐全开源收费。
HLG：是由 BBC 和 NHK 联合开发的高动静范畴 HDR 的一个规范。HLG 不须要元数据，能后向兼容 SDR。
HDR10+：为抗衡 DolbyVision, 由三星推出的一个局部收费的规范。采纳的是动静元数据。
DolbyVision：Dolby Vision 应用根本层 + 加强层来实现向下的兼容性。并应用动静元数据来形容所有场景。但它是一个免费规范，受权体系较为简单。
HDR Vivid：是国产的一个规范。在现有传输曲线和色调空间规范的根底上，减少动静元数据的形容，开源收费且兼容性好。

随着 5G 通信的倒退，给视频行业带来全新的改革，对应的终端能力也越来越强，互联网超高清利用空前暴发，这对超高清视频的要求也越来越高。通常，咱们所说的超高清视频包含以下六因素：

高分辨率
高帧率
色深解析
宽色域
高动静范畴
全景声音频
这其中，4K、HDR 等技术贯通整个从采集、制作、出现等整个端到端的流程。

上面看一下须要如何的技术储备，能力实现如此端到端的流程？

内容生产：
用户拍摄 HDR 视频上传到云端。在这一阶段，平台须要具备以下 HDR 的解决能力：

HDR 视频云端编辑能力
SDR 素材适配
HDR 中间层（Mezz）文件的编码
元数据的生成
元数据的透传

存储（压缩）/ 解决（传输）阶段
在 HDR 视频编码和解决阶段，须要以下过程：

HDR 转 SDR。这波及到重要的色调映射过程。
多种输出格局主动适配。
SDR 转 HDR。能够通过 AI 的形式，将 SDR 转换为 HDR。
HDR 格局互转能力。HDR 的格局多样，可能反对各种 HDR 格局互转非常重要，如 HDR10 转 HLG。
HDR 元数据的写入、透传。在原始 HDR 视频根底上，是否在码率压缩后写入，这也对云端能力提出了要求。

HDR 显示：
在视频播放阶段，须要肯定的策略在端上做相应的适配。具体来说，须要实现：

HDR 终端视频播放
SDR 终端视频播放
端上主动适配
在接下来的章节，会详细分析各项技术的实现过程。

HDR 转 SDR 的过程实际上是一个色调映射的过程。（Tone Mapping Operator）
HDR 和 SDR 视频的亮度空间和色调范畴都差异很大，这其中的转换过程较为简单。艰深了解，色调映射就是一个将 HDR 的图像或者视频，转换为 SDR 的图像，并在 SDR 显示设施正确显示的技术。
以下是典型色调映射解决的流程：

预处理
通过预处理，将图像的亮度信息转换为 log 域。
图像合成
通过图像的保边滤波器，将图像分解成根底层和细节层。
亮度信息提取
将提取出的根底层亮度信息通过不同的色调曲线进行压缩，并将压缩后的亮度信息加在细节层上。
后置解决
通过后置解决，进行色彩校对，失去 SDR 图像。
在色调映射过程中，最重要的是如何抉择不同的实现算法。这须要结合实际的利用场景。

SDR 转 HDR 也是一个十分复杂的过程，不仅仅是变换色彩空间和动静范畴，更须要思考暗部细节加强与过曝细节的修复、对比度的晋升、色调放弃不变、色调加强解决以达到 HDR 的要求以及通过算法实现对噪声的管制。
在亮度方面：心愿通过 SDR 视频中残留的，适度曝光和曝光有余区域的信息，尽可能地复原这些区域内失落的细节。
在色调方面：通过 SDR 视频中受限的色调，预计出原始场景的色调，让复原出的 HDR 视频的色调尽可能地靠近原始场景中丰盛而实在的色调。

上图能够看到传统办法对 SDR 转 HDR 的过程，次要是通过线性转化的形式，对过曝 / 欠曝的区域进行重建。
目前 AI 的办法，在超分和加强畛域用的十分多，因为它应用的是非线性的表白，个别认为通过 AI 的办法能够实现 SDR 转 HDR 的更好成果。

特点：

采纳全局 / 部分信息交融的形式。
采纳 Residual Connection 残差学习。
Squeeze-Excitation，channer 维度自注意力算法加持。
超高清预测分辨的速度快。

以下是基于 AI 的 SDR 到 HDR 的成果展现：

能够看到，基于 AI 的 SDR 到 HDR 的转换，在晋升动静范畴的同时，还补充了曝光有余区域（暗影）的局部细节。整个画面细节更丰盛，档次更明显，整体的色调饱和度上也有显著的晋升。
在 AI 模型的训练过程中，数据的积攒非常重要。这也是该计划在后续须要优化的中央。

HDR 的格局多样，所以可能反对 HDR 格局之间互相转换十分必要。与转码相似，HDR 格局上也须要做一个对立散发。
要了解 HDR 格局互相转换的这个过程，须要对 PQ 零碎模型和 HLG 零碎模型有一个粗浅的了解。

PQ 零碎模型

环境光通过光光转换曲线、逆电光转换曲线，变换成 PQ 的电信号。在显示阶段，通过电光转换曲线，变成显示光。
HLG 零碎模型

环境光通过电光转换曲线，变换成 hlg 的电信号。在显示阶段，通过逆电光转换曲线、光光转换曲线，变成显示光。
HLG 零碎模型从流程上看，根本与 PQ 零碎模型是相同的。

这部分以 HEVC 为例，重点介绍编码在 HDR 上是如何承载的。
HEVC 对元数据的承载蕴含两个局部的重要信息。

VUI 信息
VUI 是在 H.264/AVC 和 H.265/HEVC 序列参数集中携带的元数据元素的汇合，它们独特形容了理论视频信号如何在样本流内存储和映射，包含编码信号的参数或属性、色调空间、传输曲线等。

SEI 信息

SEI 是用来保障 SDR 与 HDR 之间的互用性的机制的办法，用于实现在接收器或者播放器中实现间接显示或转换显示的过程。

它次要蕴含制作的描述性信息（或色调容积转换）、Tone mapping 信息、Color remapping 信息、Knee function 信息。

对 HDR 元数据的解析也是十分重要的能力。只有将原视频的 HDR 元数据保留并解析下来，能力将解决完的元数据写入以放弃 HDR 的成果。

“智感超清”HDR 目前曾经服务各行业的客户，满足用户需要。

在广电畛域行业，可能满足用户标清、高清到 4k 转换的需要。
在电影行业，通过 AI 技术对老片进行修复，做超高清解决，晋升整个在处理过程中的效率，降低成本耗费，同时让老旧片子真正从新焕发生命力。
在新媒体行业，依靠百度智感超清的诸多能力优化视频体验，也减少了很多视频编辑能力，包含非线编能力，极大的晋升编辑在创作内容过程中的成果。
在互联网畛域，服务于互联网视频用户，一方面晋升了视频品质，另一方面升高了带宽老本解决 UGC 场景下视频品质较差的问题。

以上是老师的全副分享内容。如有任何疑难，能够在留言区提出。

关于音视频:智感超清之HDR技术落地实践

01 百度智能视频云 3.0& 智感超清介绍

百度智能视频云 3.0 介绍

“智感超清”MCP 视频解决产品

第一局部是智能视频解决。

第二局部是智能视频编码。

02HDR 技术概念解析

什么是 HDR

HDR 端到端系统流程

HDR 技术相干概念

03“智感超清”HDR 技术利用实际

典型超高清 HDR 利用需要

HDR 解决流程与需要剖析

HDR 转 SDR

SDR 转 HDR

基于 AI 的端到端 SDR 转 HDR 计划

HDR 格局之间的转换

HEVC HDR 反对

“智感超清”HDR 客户落地案例

Just My Socks（注册教程内含优惠码）

关于音视频:智感超清之HDR技术落地实践

01 百度智能视频云 3.0& 智感超清介绍

百度智能视频云 3.0 介绍

“智感超清”MCP 视频解决产品

第一局部是智能视频解决。

第二局部是智能视频编码。

02HDR 技术概念解析

什么是 HDR

HDR 端到端系统流程

HDR 技术相干概念

03“智感超清”HDR 技术利用实际

典型超高清 HDR 利用需要

HDR 解决流程与需要剖析

HDR 转 SDR

SDR 转 HDR

基于 AI 的端到端 SDR 转 HDR 计划

HDR 格局之间的转换

HEVC HDR 反对

“智感超清”HDR 客户落地案例

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）