关于音视频:ICASSP-2022-前沿音视频成果分享基于可变形卷积的压缩视频质量增强网络

9次阅读

共计 3434 个字符,预计需要花费 9 分钟才能阅读完成。

阿里云视频云视频编码与加强技术团队最新研究成果论文《基于可变形卷积的压缩视频品质加强网络》(Deformable Convolution Dense Network for Compressed Video Quality Enhancement)已被 ICASSP 2022 Image, Video & Multidimensional Signal Processing 主题会议接管,并受邀在往年 5 月的寰球会议上向工业界和学术界进行计划报告。以下为技术成绩的核心内容分享。

佳芙|作者

背景

视频压缩算法是一种广泛应用于视频流传和视频存储的技术,它可能帮忙节俭带宽和节约存储空间,但同时也带来了视频品质降落的问题。压缩视频品质加强工作的指标便是缩小由视频压缩带来的 artifacts,晋升视频品质。

近些年来,基于多帧策略的办法成为了压缩视频品质加强工作中的支流,为了交融多帧信息,这些办法大多都重大依赖于光流预计,然而不精确且低效率的光流预计算法限制住了加强算法的性能。为了突破光流预计算法的限度,本文提出了一种联合了可变形卷积的浓密残差连贯网络结构,这个网络结构无需在显式光流预计的帮忙下就能实现从高质量帧到低质量帧的弥补。

利用可变形卷积来实现隐式的静止预计,并通过浓密残差连贯来进步模型对误差的容忍度。具体而言,咱们所提出的网络结构由两个模块组成,别离是利用可变形卷积来实现隐式预计的静止弥补模块,以及应用浓密残差连贯来进步模型误差容忍度和信息保留度的品质加强模块,此外,本文还提出了一个新的边缘增强损失来加强物体边缘构造。在公开数据集上的试验结果表明,该办法显著优于其余 baseline 模型。

办法解析

受到 MFQE[1] 的启发,咱们的办法也应用了 PQF 来作为参考帧。在 MFQE 中,PQF 被定义为品质高于其前后间断帧的视频帧,而在本文中,应用了 I 帧来作为 PQF,高质量的 PQF 能够为低质量的输出帧提供更精确的信息,从而更大限度地晋升视频帧的品质。

图 1 展现了咱们的模型构造,其中 \(F_{np} \) 示意以后帧,\(F_{p1} \) 和 \(F_{p2} \) 别离代表最近的前后 PQF,MC module 代表静止弥补模块,前方的多个密集残差块和卷积层组成了品质加强模块。

将 PQF(\(F_{p1} \) 或 \(F_{p2} \))作为参考帧,静止弥补模块中的可变形卷积层可为其预测时序静止信息,并将参考帧弥补为输出帧的内容,此时的弥补帧 \({F}^{c}_{p1} \)、\({F}^{c}_{p2} \) 同时具备和输出帧 \(F_{np} \) 类似的内容以及和参考帧 \(F_{p1} \)、\(F_{p2} \) 相近的品质。

接着,品质加强模块 \(R_{\theta_{qe}} \) 将交融多个参考帧的信息,最终输入一个加强帧 \(F_{enh} \)。

$$
F_{enh}=F_{np}+R_{\theta_{qe}}(\left [ F^{^{c
} }_{p1},F
_{np} ,F^{c}_{p2} \right ] )
$$

此外,思考到 artifacts 通常呈现在物体边缘左近,咱们针对性地提出了一个边缘增强损失,这个损失能够检测并强调视频帧中的物体边缘 \(W \),帮忙模型更好地重建被 artifacts 毁坏掉的物体轮廓。

$$
L_{e} =\frac{1}{N} \sum_{i=1}^{N}{W} \ast \left (F_{raw} – F_{enh} \right ) ^{2}
$$

试验后果

峰值信噪比(PSNR)和构造相似性(SSIM)是最为宽泛应用的图像品质评估指标,为了更不便直观地比拟算法成果,本文应用了 \(\bigtriangleup PSNR \) 和 \(\bigtriangleup SSIM \),即加强帧绝对于输出帧的 PSNR 和 SSIM 的增量来作为评估指标。

将咱们的办法与其余 5 个 baseline 模型进行了比拟,在 5 个比照办法中,ARCNN[2]、DnCNN[3] 和 RNAN[4] 都是压缩图像品质加强算法,可能独立地对每一个视频帧进行加强,但体现个别。MFQE 1.0 则是一个基于多帧策略和 PQF 的压缩视频品质加强算法,在 MFQE 1.0 的根底上,MFQE 2.0[5] 通过改良 PQF 检测器和品质加强模块来进一步晋升了加强成果。从表 1 中能够看出,咱们的办法可取得了比其余 5 个办法更高的 \(\bigtriangleup PSNR \) 和 \(\bigtriangleup SSIM \)。特地地,对于 QP=37 的测试序列,咱们绝对于 MFQE2.0 的性能晋升靠近是 MFQE2.0 绝对于 MFQE1.0 的晋升的两倍。

图 2 展现了 5 种办法的主观成果,显然咱们所提的办法能够将视频帧的品质晋升得更高。以图 2 中的球、伞架和嘴巴为例,咱们的办法复原出了更清晰的物体边缘和更多的细节,这阐明对于视频中疾速静止的物体,比方球,咱们网络中应用的金字塔构造的可变形卷积能够更精确地弥补静止,并且在品质加强模块的高效帮忙和边缘增强损失的正确引导下,本文办法在边缘重建和细节补充上取得了更优体现。

基于该技术的深度研发,极大晋升了阿里云视频云窄带高清产品对低质量视频的边缘细节修复成果,尤其是在人们比拟关注的人脸区域晋升成果更加显著,从而为用户提供更好的观看体验,该成绩可宽泛使用于短视频和直播场景中,如已利用于央视春晚、阿里衰弱等场景。此外,该项技术对中高质量视频也有很好的视觉晋升成果,在等同带宽下,使整体画面变得更加清晰,将来该技术还将广泛应用于更多的场景以晋升观看体验。

对于窄带高清

窄带高清是一项基于阿里云独家转码技术的媒体解决性能,采纳阿里云独有算法,冲破视频编码器能力下限,对转码技术进行降级和迭代,继续优化视频播放的晦涩度与清晰度,实现在等同画质下更省流、在等同带宽下更高清的观看体验。窄带高清利用其低码高清、画质新生、场景定制、节俭 50% 带宽老本等技术特点,为 2022 年北京“云上冬奥”和阿里云聚“Alibaba Cloud ME”提供了重要技术撑持。(窄带高清产品官网)
参考文献
[1]Ren Yang, Mai Xu, Zulin Wang, and Tianyi Li,“Multiframe quality enhancement for compressed video,”in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 6664–6673.
[2]Chao Dong, Yubin Deng, Chen Change Loy, and Xiaoou Tang,“Compression artifacts reduction by a deep convolutional network,”in Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 576–584.
[3]Kai Zhang, Wangmeng Zuo, Yunjin Chen, Deyu Meng, and Lei Zhang,“Beyond a gaussian denoiser: Residual learning of deep cnn for image denoising,”IEEE Transactions on Image Processing, vol. 26, no. 7, pp. 3142–3155, 2017.
[4]Yulun Zhang, Kunpeng Li, Kai Li, Bineng Zhong, and Yun Fu,“Residual non-local attention networks for image restoration,”arXiv preprint arXiv:1903.10082, 2019.
[5] Zhenyu Guan, Qunliang Xing, Mai Xu, Ren Yang, Tie Liu, and Zulin Wang,“Mfqe 2.0: A new approach for multi-frame quality enhancement on compressed video,”IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019.
「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实际技术文章,在这里与音视频畛域一流工程师交换切磋。公众号后盾回复【技术】可退出阿里云视频云产品技术交换群,和业内大咖一起探讨音视频技术,获取更多行业最新信息。

正文完
 0