导语
直播点播曾经与日常生活非亲非故,这个过程中大家最关注的是什么,是更低的播放老本?还是更高的画质?这就波及到了窄带高清技术,对于视频窄带高清技术,智能视频编码是其中最根底也是最重要的一个局部。
程玲 | 网易云信资深音视频引擎开发工程师
01 窄带高清技术概述
窄带高清技术实际上是一套以人眼的主观感触最优为基准的视频编码技术,代表的是一种老本与体验最合理配置、最佳性价比的视频服务理念。窄带 是指节俭不必要的比特,高清 是把比特调配到更能产生价值的中央,从而实现在同样带宽条件下播种更加清晰优质的画质。
在疫情的影响下,直播从传统秀场渗透到各个领域,全民直播时代到来,对窄带高清技术的需要也越来越大。本文将首先介绍下业界一些比拟成熟的窄带高清计划,再分享网易云信在窄带高清技术上的摸索实际,最初再分享其关键技术点 JND 感知编码技术。
02 业界窄带高清计划简介
业界曾经有比拟成熟的窄带高清技术的利用,上面将介绍一些典型的技术计划。
淘宝直播
淘宝直播是采纳 HEVC 编码实现了 720p/25fps,800kbps 的压缩,且 PSNR>43db/VMAF>90。其视频窄带高清技术次要利用有三个方面:
- 音视频加强,采纳基于 AI 的图像增强、美颜和语音加强来进步生产品质
- 感知解决,采纳信源信道联结自适应编码,包含 ROI 检测、依据场景分类设置不同的编码参数、智能码控等
- S265 编码器,S265 编码器是业界当先的 HEVC 编码器
阿里窄带高清
阿里的窄带高清计划是从人眼视觉模型登程,将编码器的优化指标从经典的“保真度最高”调整为“主观体验最好”。凭借独有算法,弱化人眼易漠视的区域,强化人眼关注的细节,修复人眼讨厌的内容,冲破当代视频编码器的能力下限,在节俭码率的同时,也能提供更加清晰的观看体验。
腾讯极速高清
腾讯极速高清是采纳视频智能类(视频分成游戏、秀场、体育、户外、动漫、美食、影视剧等十几个大类几十个小类场景)、智能编码参数(不同场景配置不同最优编码参数)、前置解决(锐化、软含糊、去块、降噪)等技术尽可能解决转码失真、低分辨率含糊、镜头抖动、噪声大、低码率锯齿块等转码中存在的问题,利用在斗鱼、企鹅电竞、CCTV、新英体育等。
03 NE264 窄带高清技术
NE264 是网易云信自研的合乎 H.264 规范的视频编码器,目前已在 RTC、直播点播中利用。针对直播点播,NE264 指标是在现有架构下实现更低的带宽、更高的画质,即 NE264 窄带高清。上面咱们将简略介绍下视频编码技术和依据人眼视觉个性提出的视觉感知编码技术,在此基础上提出和实现了 NE264 窄带高清技术。
视频编码
视频编码都是利用数据间的冗余来进行压缩。晚期视频编码依附优化空域冗余、时域冗余、频域冗余等带来压缩效率的晋升。从 MPEG-1 倒退到 MPEG-2,码率节俭约 50%,编码效率翻倍,复杂度增长为 5% 左右。
2003 年推出的 H.264 是视频压缩协定的经典,在 H.264 推出后,传统的编码方式优化效率越来越低。从 H.264(AVC) 到 H.265(HEVC),尽管编码效率晋升了 40%,但其背地复杂度却增长了 5 倍,而从 H.265 到最新的 H.266(VVC) 规范,编码效率不到 40%,但复杂度减少了 10 倍以上。
随着编码标准的演进,收益越来越小。随着技术的倒退,技术冲破愈发艰难,因而迫切需要一种编码压缩的新思路。
人眼视觉零碎(HVS)
随着对 人眼视觉零碎 (HVS) 生理和心理钻研的倒退,咱们发现,其实人脑解决视觉时有十分多的信息冗余,利用人眼视觉个性能够显著的改善视觉压缩效率,这就是人眼感知压缩的原理。
人眼视觉零碎由眼球、神经系统及大脑视觉中枢三局部形成,当人眼凝视视频场景时,入射光首先由瞳孔和水晶体调节、聚焦,使风物在视网膜上成像,而后由视网膜上的神经元将光信号转化为神经信号并发送到视皮层,通过视皮层以及脑部其余区域的进一步解决后造成对视频场景的感知。
近几年来,在视觉心理学、生理学的领导下,通过对人眼的某些视觉景象的察看和钻研,人们发现了 HVS 的很多个性。目前在视觉感知编码中,个别利用到的 HVS 个性有视觉留神、视觉覆盖、视觉敏感、视觉统计学习机制等,HVS 的一些个性如下图:
视觉覆盖,人眼对繁多视觉信号比拟容易感知,当几个视觉信号同时存在时,HVS 会对其中一个或多个信号的感知能力降落甚至隐没,感知阈值产生扭转,包含:
- 亮度覆盖:人眼对较亮或者较暗区域感知更弱
- 纹理覆盖:人眼对非平均区域的可见性阈值为 显著高于平均区域
- Pattern 覆盖:人眼对规定物体的分辨力显著会高于不规则的物体
- 静止覆盖:人眼对剧烈运动的场景分辨力会显著降落
视觉留神,即当人眼留神视频场景时,人眼会疾速将注意力集中在感兴趣的视频内容或者对象上。包含两种模式:
- 由内部激励驱动的自底向上 (Bottom-up) 的处理过程。次要跟图像内容的显著性相干,与四周区域具备较大差异性的指标容易吸引观察者的视觉关注。
- 由工作驱动的自上而下 (Top-down) 的处理过程。意识摆布、依赖于特定的命令,由人的“认知因素”决定, 比方常识、预期和以后的指标,如监控场景下的人体更容易引起留神。
视觉感知编码
视觉感知编码 的目标是利用已知的 HVS 个性,最大限度打消人眼无奈感知的信息,用更少的比特资源提供视觉感知品质更现实的视频图像。为此,钻研人员提出了大量的视觉感知编码方法。依据编码方法所利用的 HVS 个性不同,钻研和利用比拟多的是基于 视觉覆盖 的编码方法和基于 视觉留神 的编码方法。
对于视觉覆盖的编码方法 ,人眼多通道模型的特点,一个激励的存在将导致另一个激励探测阈值的扭转,以致人眼对其中一种或多种激励的感知能力降落或隐没,这就为打消视觉冗余提供了可能。目前,基于视觉覆盖的编码方法次要有: 基于 JND 模型的编码方法 和基于 SSIM,VMAF 等主观评估机制的编码方法。其中 JND 模型的编码方法是人眼视觉编码目前宽泛应用的技术,也是咱们重点钻研的技术。
对于视觉留神的编码方法 ,依据是否思考 HVS 的地方凹个性,基于视觉留神的编码方法能够分为两类, 基于感兴趣区域的编码方法 和基于人眼显著性检测的编码方法。
- 基于感兴趣区域(ROI)的编码方法的根本思维是在视频编码前,对输出的视频场景进行视觉感知剖析确定感兴趣区域。在编码过程中通过调整编码参数,比方 QP,来别离管制感兴趣区域和非感兴趣区域的失真水平,进而改善感兴趣区域的编码品质。该技术提出已有多年,理论在应用时晋升比拟无限。
- 基于人眼显著性检测 (Visual saliency detection) 的编码方法指通过依据人的视觉特点,提取图像中的显著区域(即人类感兴趣的区域)。面对一个场景时,人类主动地对感兴趣区域进行解决而选择性地疏忽不感兴趣区域,这些人们感兴趣区域被称之为显著性区域。该技术是是人眼感知编码中比拟常见的技术,通常和 JND 等技术配合达到更好的压缩成果,也是咱们要优先钻研的技术。
NE264 技术
目前业界窄带高清技术已绝对比拟成熟,联合 NE264 编码个性以及想要达成的指标,咱们的窄带高清技术次要分为三大部分:
- 视频加强前解决技术:纹理加强,晋升主观体验
- 显著性检测技术:基于人眼视觉留神个性,辨别显著性和非显著性区域,用于编码,进步压缩率
- JND 感知编码技术:基于人眼视觉覆盖个性,作用于编码,进步压缩率
具体的流程咱们能够联合下图看一下:对于输出视频,咱们能够通过机器学习剖析视频内容个性,而后进行视频加强前解决,以晋升画质,再进行显著性检测辨别显著性和非显著性区域,传递给 NE264 编码器,NE264 编码计算 JND 系数,再联合显著性检测后果,作用于编码,最终输入显示。
下图为加强前解决的比照效果图,其中左图为原图,右图为加强解决后的成果,能够发现通过视频加强解决后的图像主观失去显著晋升。
视频加强成果
下图为显著性检测效果图,其中下面黑白图为原图,上面黑白图为显著性检测效果图,为 0-255 的值,越亮阐明越是显著性区域。
显著性检测成果
04 JND 感知编码技术
上面咱们就来看看下面提到的关键技术:JND 感知编码技术。
JND(Just Noticeable Distortion)为最小可发觉误差,用来度量人眼对图像中不同区域失真的敏感性,多用于基于视觉个性的图像 / 视频编码、数字水印、图像品质评估。目前已有多个 JND 模型被提出,次要分为两类,基于 像素域 的 JND 模型和基于 DCT 域 的 JND 模型。
- 基于像素域的 JND 模型能在像素域上更为直观的给出每一个像素点的 JND 阈值,不须要思考频域个性,计算简略不便,但精度不高。
- 基于 DCT 域的 JND 模型思考频域个性,利用更广,通常包含三局部,亮度自适应 (Luminance Adaptation, LA)、对比度掩蔽(Contrast Masking, CM) 以及对比度敏感函数(Contrast Sensitivity Function, CSF)。咱们次要采纳的是基于 DCT 域的 JND 感知编码技术。JND 计算公式如下:
基于 NE264 的 JND 感知编码如下:对于输出的 YUV 图像,咱们首先计算亮度敏感度、纹理敏感度和比照敏感度,从而失去 JND 系数,而后作用于 DCT 域,扭转原有的 DCT 系数,而后进行编码,输入码流。
05 总结
本文次要介绍了 NE264 窄带高清技术和 JND 感知编码技术,对于直播点播利用而言,如何在保障高清画质的根底上尽可能的缩小带宽始终是谋求的指标,视频编码是其中至关重要的环节,不论是传统编码技术,还是联合智能编码技术,咱们都将继续致力,带来更低时延、更高画质的优质视频体验。
以上就是本次分享的全部内容,点击【这里】即可查看本次分享的视频回顾。
作者介绍
程玲,网易云信资深音视频算法工程师,目前在网易云信次要从事视频编码算法钻研相干的工作,对视频品质优化、码率控制算法有比拟丰盛的教训。
更多技术干货,欢送关注【网易智企技术 +】微信公众号