共计 5982 个字符,预计需要花费 15 分钟才能阅读完成。
本文由百度智能云 - 视频云音视频解决技术架构师——邢怀飞,在百度开发者沙龙线上分享的演讲内容整顿而成。
内容从百度智能视频云的外围竞争力:“智感超清”登程,梳理了智能视频云相干的产品概念和技术。在具体介绍了 HDR 技术的概念根底上,联合相干“智感超清”能力,重点分享了 HDR 技术的利用实际。
文 / 邢怀飞
整顿 / 百度开发者核心
视频回放:https://developer.baidu.com/l…
本次分享的主题是:智感超清之 HDR 利用实际。内容次要分为以下三个局部:
- 智能视频云 3.0 & 智感超清介绍
- HDR 技术概念解析
- “智感超清”HDR 技术利用实际
01 百度智能视频云 3.0& 智感超清介绍
百度智能视频云 3.0 介绍
上图就是百度智能视频云 3.0 的全景图。能够用三句话概括:
第一,云智一体化
即百度目前所有的视频云产品都实现了智能化。能够看到,图中标注的局部,“智感超清视频解决”的外围能力就包含了:智能编码、智能解决、智能抽帧、版权保护。其中,“智感超清”是视频解决产品的一个外围竞争力品牌。
第二,服务平台化
联合底层的云智一体的能力,咱们搭建了两个平台:视频创作散发平台,视联网感知平台。
其中,创作散发平台面向泛媒体和泛互联网场景,能够提供端到端一站式的视频服务。而视联网感知平台,面向传统监控产业,对视频端设施和泛视频数据流进行对立接入、剖析和治理。
第三,利用场景化
联合具体的利用场景,百度智能视频云在泛互联网、泛媒体和泛产业方向提供了定制化的智能视频计划笼罩互动娱乐、内容生产、智能剖析、近程实时通信、生产治理、平安治理等场景。
“智感超清”MCP 视频解决产品
以上是智感超清 MCP 视频解决产品的一个性能框架图。上面简略介绍一下每一层的构造与内容。
接入层:与其余云上产品相似,MCP 视频解决产品提供两个次要入口:Console、API&SDK。
用户能够通过控制台(Console)进入并进行相应的配置。而对于 B 端的客户,更能够灵便地采纳 API/SDK 的形式对产品进行拜访。
基本功能层:包含根底的云上转码的性能,也包含根本的视频剪辑 / 拼接 / 截图 / 字幕叠加等附件的性能。
云上转码能够把用户上传的视频进行一个全格局、全协定的转换,以满足于不同客户场景下、不同网络状况、不同终端的适配,并能够灵便的做多码流切换。
智能视频解决层:这部分是“智感超清”整个产品外围打造的能力。形象出以下三个层面介绍:
- 第一:智能画质晋升
通过 AI 的伎俩或其余传统的伎俩对输出的视频进行预处理,而后再进行转码解决,会带来比远视频更好的视觉体验。其中,智能 HDR 转换,也是和明天分享强相干的技术。 - 第二:智能老片修复
之所以把这个门类独自进去,是因为针对这些老片,咱们须要有特定的技术进行修复,以达到降级的用户体验。具体性能包含:划痕去除,噪点去除和智能上色。 - 第三:智能视频编辑
这一部分是根本的视频编辑能力。包含智能字幕、智能去黑边、智能去抖动等。
以上三个功能模块形成了智能视频解决的外围能力。
智能视频编码:这一层是比拟底层的视频编码能力介绍。
次要包含:内容指定编码、ROI 编码、4k/8k 编码、还包含百度自研的 BD265 编码器等。
介绍完产品框架图,咱们再介绍一下智感超清的外围竞争力在技术上如何实现。
第一局部是智能视频解决。
智能视频解决的外围指标是晋升画质。它可能通过视频预处理的形式使得在视频的分辨率、帧率、色深、色域等各个方面都能有一个较大晋升。
其中比拟外围的能力包含:SDR2HDR、超分、插帧。
在超分和插帧上都是基于 AI 模型。目前,在超分模型上,曾经研发了视频级别的一个超分模型;在开源数据集上,曾经达到了 SOTA;在插帧的算法上,也有自研的算法,能够实现任意帧的一个插帧。
在智能老片修复上,百度也和其余的单位单干,构建了一个残缺的数据集。比拟典型的场景如:胶片上老片的物理伤害,包含其它磁带的一些伤害,“智感超清”产品通过对图像画质进行多维解决,可能在不减少视频带宽老本的状况下,实现画面质量的大幅晋升,打造视频的“极质”体验。
第二局部是智能视频编码。
智能视频编码方面,曾经研发上线了 AI 驱动自适应的编码。该模型能够依据视频自身内容分析,预测出最优的视频码率与分辨率,并可能与 ABR 协定联合,生成一组最优的编码配置。与此同时,构建了一个数百万场景级别的数据集,将 VMAF 当成视频品质评分的一个指标。
不仅如此,百度还自研了 BD265 编码器,开发了 60 多种算法,并思考主观驱动的算法去晋升视频的画质并节俭码率。
比照开源编码器,BD265 编码器晋升了 30% 的码率,速度上也晋升了 2~4 倍。该编码器加入了去年的 MSU 大赛,在 VMAF 上也达到了 top2 的程度。这个是咱们后面对智能视频解决和编码的一个简略介绍。
通过后面的简略介绍,置信大家对智能视频云有一个根本的意识,并对“智感超清”产品有一个初步的理解。在下一章节,将给大家重点介绍 HDR 相干的技术。
02HDR 技术概念解析
什么是 HDR
HDR 的特点能够用三个“更”字概括。
- 更高的亮度范畴
绝对于 SDR 来说,HDR 能够达到 10000nits 的最高亮度。这使得它可能更好地展现明暗比照,在亮度方面,更加贴近人眼的对物理世界的感官认知。(能够参考上图 HDR 和 SDR 的成果比照) - 更广的色调范畴
上图左下角示例,是一个 CIE 1931 色调空间的表白。传统的 709 畛域(即:高清),可能笼罩 35.9% 的色调范畴,而到了 2020 畛域(即:超高清),曾经可能笼罩 75.8% 的色调范畴。
那么,如何去表白这种更宽的色调范畴呢?须要咱们更高的比特也就是更高的位深去示意。
这也对应了 HDR 的第三个个性:
- 更深的色深(位深)
基本上 hdr 都是在 10 比特,更高的要达到 12 比特能力达到。以上是咱们对 HDR 成果的一个简略介绍。
HDR 端到端系统流程
之所以想介绍这个流程,是因为 HDR 它不是一个单点的技术概念,它涵盖了从视频的拍摄、制作、视频编码、解码、播放、传输等一系列流程。须要整个 HDR 技术生态上的企业相互配合,能力实现整个 HDR 端到端的零碎。下图形象的展现了整个零碎流程:
视频录制(光电转换)→前期加工(产生元数据)→获取 HDR 视频及相干的内容元数据→压缩传输→解码→显示器显示播放(电光转换)
HDR 技术相干概念
- 光电 / 电光传输曲线
将自然界中实在场景转换为屏幕上显示进去的图像,须要通过两个次要步骤: - 通过摄影设施,将外界光信息转换为图像信息存储。实质上存储为数字信号。
- 通过显示设施,将图像信息转换为屏幕输入的光信息。
整个过程中,信息流要通过两个重要的非线性映射,能力造成咱们在显示设施上看到的图像。这两个重要的非线性映射过程,咱们又称光电 / 电光传输曲线。
上面介绍三种常见的光电 / 电光传输曲线
- Gamma 曲线
是一种在传统的 SDR 显示设施上被宽泛应用的转换曲线。
对应的规范是:BT.1886,峰值亮度仅为 100nits。
随着显示设施亮度范畴的晋升、图像编码 bit depth 的晋升,使得传统 Gamma 校对不再实用 HDR 的光电转换过程。 - PQ 曲线
由杜比实验室依据 Barten 的人眼模型提出的电光转换曲线。峰值亮度能够达到:10000nits。
长处:可能提供更高的亮度范畴。 - HLG 曲线
由 BBC 和 NHK 联结提出的光电转换曲线。
长处:兼容 SDR 的显示和播放。在广电畛域被广泛应用。
- HDR 元数据
定义:形容视频或图像处理过程中的要害信息 / 特色。产生于视频的制作阶段,次要蕴含色调和亮度两大方面信息。
分类:按形成构造上分类,可分为动态元数据和动静元数据。
- 动态元数据:视频中采纳繁多的元数据去管制每一帧的色调和细节,元数据并不会发生变化。易造成某些大动静场景的画面暗部或者高亮细节失落。
- 动静元数据:视频中的采纳变动的元数据去管制每一帧的色调和细节。通过动静元数据,咱们还能够依据用户的显示状况,利用 tone-mapping(色调映射)的算法进行更多的适配。
- HDR 常见格局
后面也提到,HDR 不是一个单点的技术概念,而是一个端到端的生态。从上述图中也能够看到,HDR 的格局生态非常的简单,正是因为此,HDR 的规范有些割裂,并不像视频编码一样那么清晰。若依照光电 / 电光传输曲线的品种来划分,能够分为以下几个大的规范类型:
- HDR10:由美国 CT 组织牵头的一个凋谢规范。齐全开源收费。
- HLG:是由 BBC 和 NHK 联合开发的高动静范畴 HDR 的一个规范。HLG 不须要元数据,能后向兼容 SDR。
- HDR10+:为抗衡 DolbyVision, 由三星推出的一个局部收费的规范。采纳的是动静元数据。
- DolbyVision:Dolby Vision 应用根本层 + 加强层来实现向下的兼容性。并应用动静元数据来形容所有场景。但它是一个免费规范,受权体系较为简单。
- HDR Vivid:是国产的一个规范。在现有传输曲线和色调空间规范的根底上,减少动静元数据的形容,开源收费且兼容性好。
03“智感超清”HDR 技术利用实际
典型超高清 HDR 利用需要
随着 5G 通信的倒退,给视频行业带来全新的改革,对应的终端能力也越来越强,互联网超高清利用空前暴发,这对超高清视频的要求也越来越高。通常,咱们所说的超高清视频包含以下六因素:
- 高分辨率
- 高帧率
- 色深解析
- 宽色域
- 高动静范畴
- 全景声音频
这其中,4K、HDR 等技术贯通整个从采集、制作、出现等整个端到端的流程。
上面看一下须要如何的技术储备,能力实现如此端到端的流程?
HDR 解决流程与需要剖析
内容生产:
用户拍摄 HDR 视频上传到云端。在这一阶段,平台须要具备以下 HDR 的解决能力:
- HDR 视频云端编辑能力
- SDR 素材适配
- HDR 中间层(Mezz)文件的编码
- 元数据的生成
- 元数据的透传
存储(压缩)/ 解决(传输)阶段
在 HDR 视频编码和解决阶段,须要以下过程:
- HDR 转 SDR。这波及到重要的色调映射过程。
- 多种输出格局主动适配。
- SDR 转 HDR。能够通过 AI 的形式,将 SDR 转换为 HDR。
- HDR 格局互转能力。HDR 的格局多样,可能反对各种 HDR 格局互转非常重要,如 HDR10 转 HLG。
- HDR 元数据的写入、透传。在原始 HDR 视频根底上,是否在码率压缩后写入,这也对云端能力提出了要求。
HDR 显示:
在视频播放阶段,须要肯定的策略在端上做相应的适配。具体来说,须要实现:
- HDR 终端视频播放
- SDR 终端视频播放
- 端上主动适配
在接下来的章节,会详细分析各项技术的实现过程。
HDR 转 SDR
HDR 转 SDR 的过程实际上是一个色调映射的过程。(Tone Mapping Operator)
HDR 和 SDR 视频的亮度空间和色调范畴都差异很大,这其中的转换过程较为简单。艰深了解,色调映射就是一个将 HDR 的图像或者视频,转换为 SDR 的图像,并在 SDR 显示设施正确显示的技术。
以下是典型色调映射解决的流程:
- 预处理
通过预处理,将图像的亮度信息转换为 log 域。 - 图像合成
通过图像的保边滤波器,将图像分解成根底层和细节层。 - 亮度信息提取
将提取出的根底层亮度信息通过不同的色调曲线进行压缩,并将压缩后的亮度信息加在细节层上。 - 后置解决
通过后置解决,进行色彩校对,失去 SDR 图像。
在色调映射过程中,最重要的是如何抉择不同的实现算法。这须要结合实际的利用场景。
SDR 转 HDR
SDR 转 HDR 也是一个十分复杂的过程,不仅仅是变换色彩空间和动静范畴,更须要思考暗部细节加强与过曝细节的修复、对比度的晋升、色调放弃不变、色调加强解决以达到 HDR 的要求以及通过算法实现对噪声的管制。
在亮度方面:心愿通过 SDR 视频中残留的,适度曝光和曝光有余区域的信息,尽可能地复原这些区域内失落的细节。
在色调方面:通过 SDR 视频中受限的色调,预计出原始场景的色调,让复原出的 HDR 视频的色调尽可能地靠近原始场景中丰盛而实在的色调。
上图能够看到传统办法对 SDR 转 HDR 的过程,次要是通过线性转化的形式,对过曝 / 欠曝的区域进行重建。
目前 AI 的办法,在超分和加强畛域用的十分多,因为它应用的是非线性的表白,个别认为通过 AI 的办法能够实现 SDR 转 HDR 的更好成果。
基于 AI 的端到端 SDR 转 HDR 计划
特点:
- 采纳全局 / 部分信息交融的形式。
- 采纳 Residual Connection 残差学习。
- Squeeze-Excitation,channer 维度自注意力算法加持。
- 超高清预测分辨的速度快。
以下是基于 AI 的 SDR 到 HDR 的成果展现:
能够看到,基于 AI 的 SDR 到 HDR 的转换,在晋升动静范畴的同时,还补充了曝光有余区域(暗影)的局部细节。整个画面细节更丰盛,档次更明显,整体的色调饱和度上也有显著的晋升。
在 AI 模型的训练过程中,数据的积攒非常重要。这也是该计划在后续须要优化的中央。
HDR 格局之间的转换
HDR 的格局多样,所以可能反对 HDR 格局之间互相转换十分必要。与转码相似,HDR 格局上也须要做一个对立散发。
要了解 HDR 格局互相转换的这个过程,须要对 PQ 零碎模型和 HLG 零碎模型有一个粗浅的了解。
- PQ 零碎模型
环境光通过光光转换曲线、逆电光转换曲线,变换成 PQ 的电信号。在显示阶段,通过电光转换曲线,变成显示光。 - HLG 零碎模型
环境光通过电光转换曲线,变换成 hlg 的电信号。在显示阶段,通过逆电光转换曲线、光光转换曲线,变成显示光。
HLG 零碎模型从流程上看,根本与 PQ 零碎模型是相同的。
HEVC HDR 反对
这部分以 HEVC 为例,重点介绍编码在 HDR 上是如何承载的。
HEVC 对元数据的承载蕴含两个局部的重要信息。
VUI 信息
VUI 是在 H.264/AVC 和 H.265/HEVC 序列参数集中携带的元数据元素的汇合,它们独特形容了理论视频信号如何在样本流内存储和映射,包含编码信号的参数或属性、色调空间、传输曲线等。
- SEI 信息
SEI 是用来保障 SDR 与 HDR 之间的互用性的机制的办法,用于实现在接收器或者播放器中实现间接显示或转换显示的过程。
它次要蕴含制作的描述性信息(或色调容积转换)、Tone mapping 信息、Color remapping 信息、Knee function 信息。
对 HDR 元数据的解析也是十分重要的能力。只有将原视频的 HDR 元数据保留并解析下来,能力将解决完的元数据写入以放弃 HDR 的成果。
“智感超清”HDR 客户落地案例
“智感超清”HDR 目前曾经服务各行业的客户,满足用户需要。
- 在广电畛域行业,可能满足用户标清、高清到 4k 转换的需要。
- 在电影行业,通过 AI 技术对老片进行修复,做超高清解决,晋升整个在处理过程中的效率,降低成本耗费,同时让老旧片子真正从新焕发生命力。
- 在新媒体行业,依靠百度智感超清的诸多能力优化视频体验,也减少了很多视频编辑能力,包含非线编能力,极大的晋升编辑在创作内容过程中的成果。
- 在互联网畛域,服务于互联网视频用户,一方面晋升了视频品质,另一方面升高了带宽老本 解决 UGC 场景下视频品质较差的问题。
以上是老师的全副分享内容。如有任何疑难,能够在留言区提出。