关于视频云:解锁抖音世界杯的画质优化实践

14次阅读

共计 1618 个字符,预计需要花费 5 分钟才能阅读完成。

卡塔尔世界杯曾经完结,29 天赛程,64 场较量,最终梅西率领阿根廷时隔三十六年再次捧杯。世界杯期间,抖音提供的稳固高质直播画面为观众带来了完满的观赛体验,决赛的 PCU 高达 3700W+。世界杯赛事波及链路泛滥,如何保障各链路的画质稳固并进一步晋升画质,是一个微小的挑战。本文次要介绍火山引擎多媒体实验室在世界杯期间画质优化的最佳实际。画质优化链路世界杯波及链路较长,可简化为下图流程,FIFA 现场信号首先传到央视端进行合规平安解决,而后通过演播室的制作传输给 CDN 再进一步散发到用户测。从画质角度来看整个链路可分为画质检测与画质优化两个局部,对于 CDN 之前的链路以画质监测为主,以发现问题 / 定位问题 / 推动对应链路人员解决问题为目标。画质优化在 CDN 和客户端两侧进行,上面的内容次要介绍画质优化局部。

本次世界杯直播应用反对 HDR(高动静范畴)设施录制,团队对反对 HDR 的设施减少了 HDR 档位,同时提供了多种不同分辨率 / 帧率的档位。为了使得观众取得更好的画质体验,团队通过自研的自适应 ToneMapping,视频降噪,ROI,端上超分等算法无效地晋升了赛事画质。卡塔尔世界杯采纳 HDR 拍摄形式,HDR 拍摄的片源领有更广的色域,更大的动静范畴。但对很多终端显示设施而言,并不反对 HDR 信号播放,所以通过 ToneMapping 算法将 HDR 信号转换为 SDR(规范动静范畴)信号是十分必要的。

相比 SDR 信号,HDR 信号领有更广的色域和更大的动静范畴,在转换到 SDR 信号的过程中不可避免会产生一些信息损失。罕用的一些 ToneMapping 办法,不论是 Reinhard,Filmic 或者 Hable,其本质都是设计固定的映射曲线实现从 HDR 到 SDR 的转换,同时尽量放弃对 HDR 成果的还原。但对于世界杯等大型赛事,现场动静范畴跨度极大,场馆的灯光 / 草地 / 球员亮度差别显著,观众感兴趣的球员信息理论集中在暗部区域,这就导致 ToneMapping 之后的 SDR 信号过暗的问题,为了解决这一问题,团队提出了内容自适应 ToneMapping 算法,通过统计视频内容的理论光照状况动静地进行 ToneMapping,从而失去更优成果。

左: Hable 算法,右: 内容自适应 ToneMapping

为了兼顾视频码率和主观画质,团队应用了基于 LSTM(长短期记忆网络)的时域 ROI 技术,通过人眼显著性区域检测和编码相结合的形式,让码率在画面上的调配更加正当。目前市面上没有专门针对足球场景的 saliency(显著性物体检测) 数据集,通用的 saliency 数据集在世界杯这类特定场景中体现并不现实。针对这一问题,团队专门制作了足球场景的 saliency 数据集,通过眼动仪追踪球迷观看球赛时的关注区域失去足球比赛的专用 saliency 数据集,从而极大减少了模型的准确性。针对足球场景中显著性物体较多,显著性区域扩散的特点,团队对检测模型进行了专门的优化,在保障检测速度的前提下,进步了模型的召回率和不同场景的鲁棒性,从而实现更优的主观品质。

注:红色框内示意 ROI 区域,右边为通用计划后果,左边为优化后果

同时团队应用了视频降噪算法,依据视频信息对其进行空域、时域噪声的去除,将带有噪声的视频解决成洁净、没有噪声的视频。因为去除了视频的噪声,在晋升视频品质的根底上同时升高了传输的码率。因为用户侧网速的限度,端上存在多个档位,当看播端网速较慢时,可能会切换到 480P/720P 等低分辨档位,此时会触发端上超分算法晋升画面清晰度。超分辨率技术指的是,基于机器学习 / 深度学习办法,依据视频信息对其进行空域、时域建模重构出缺失的细节,将低分辨率的视频重建出高分辨率视频的技术。这样即便是在低分辨档位也能体验到更清晰的画质。

左:视频降噪前,右:视频降噪后

左:视频超分前,右:视频超分后

除此之外团队还提供大分辨率、高帧率、广色域,并应用色调加强、自适应锐化等多种画质加强技术,出现更加沉迷感的超高清画面。

正文完
 0