关于视频:大淘宝技术斩获NTIRE-2023视频质量评价比赛冠军内含夺冠方案

近日，CVPR NTIRE 2023 Quality Assessment of Video Enhancement Challenge 比赛结果颁布，来自大淘宝音视频技术团队的同学组成「TB-VQA」队伍，从 37 支队伍中怀才不遇，拿下该较量（惟一赛道）冠军。此次夺冠是团队继 MSU 2020 和 2021 世界编码器较量、CVPR NTIRE 2022 压缩视频超分与加强较量夺魁后，再次在音视频核心技术的权威较量中折桂。

CVPR NTIRE (New Trends in Image Restoration and Enhancement workshop and challenges on image and video processing) 是近年来图像和视频加强解决畛域最具影响力的全球性赛事。往年（2023）的赛事包含 Quality Assessment of Video Enhancement Challenge（视频品质评估，VQA）、real-time image super-resolution、image shadow removal、video colorization、image denoising 等，笼罩许多图像和视频加强解决的经典工作。
由上述比赛不难看出，视频加强解决曾经在学术界大量钻研并在工业界失去广泛应用。随着互联网视频化的深刻，越来越多的 UGC（user generated content）等非传统广电视频（包含但不限于短视频、直播等）在互联网平台上被生产或播放，并大都通过加强解决。天然地，如何无效地掂量加强解决后的视频品质就成为一项重要且紧迫的工作。
因而，VQA 比赛应运而生，并由 NTIRE 于往年首次举办。主办方构建了蕴含 1,211 个实在利用场景的视频的数据集，对其进行包含色调、亮度、和对比度加强、去抖动、去模糊等加强解决，并对解决后的视频进行打分作为 GT（ground truth）。参赛者设计方案对上述视频进行打分，与 GT 更为靠近（应用相关性作为掂量指标，包含 SRCC 和 PLCC，是业界最罕用的指标，更高的 SRCC 和 PLCC 示意与 GT 拟合水平更高）的参赛者名次更好。
本次比赛由苏黎世联邦理工学院计算机视觉实验室主办，仅有惟一赛道——无参考视频品质评估，星散了国内外几十只参赛队伍，包含字节、快手、网易、小米、Shopee 等出名科技企业，北京航空航天大学、新加坡南洋理工大学等高校均有参赛。
通过强烈的角逐，大淘宝音视频技术的参赛队伍「TB-VQA」在惟一赛道夺冠，在 Main Score、SRCC、和 PLCC 三项指标均胜出。

表 1. CVPR NTIRE 2023 VQA 较量排行榜

值得一提的是，本次较量的冠军是大淘宝音视频技术团队继 MSU 2020 和 2021 世界编码器较量、CVPR NTIRE 2022 压缩视频超分与加强较量夺魁后，再次在音视频核心技术的权威较量中获得佳绩。团队在视频编码、视频加强解决、视频品质评估、以及视频传输等视频核心技术畛域均有布局，一些技术冲破发表在 CVPR、ICCV 等计算机视觉和视频畛域的顶级会议，在上述较量获得杰出问题，也是团队长期以来继续投入和不断创新的阶段性成绩。

在视频编码方面，MSU（莫斯科国立大学）世界视频编码器大赛是视频编码畛域最权威的全球性顶级赛事，迄今已由 MSU 的 Graphics & Media Lab 间断举办了二十三届，其评测报告被业界宽泛认可，吸引了包含 Google、Netflix、Intel、Nvidia、腾讯、字节、华为等国内外出名科技企业参加，代表了行业倒退的风向标。大淘宝音视频技术团队自研的奇点编码器 S265 和 S266，相比业界风行的开源编码器 x265、VVEnC 等，在编码速度、编码品质、和编码延时等多方面均有显著冲破，并联结阿里云视频云团队加入了 MSU 2020 和 2021 间断两届较量，获得多个赛道第一。S265 曾经全面利用于包含淘宝直播、逛逛、首页信息流在内的大淘宝内容业务，通过奇点编码器压缩后，一般手机在 3G 网络也可顺滑播放 720p 的高画质，最新公布的手机甚至可反对 4k 30FPS 超高清直播。

在视频加强解决方面，CVPR NTIRE 压缩视频超分与加强较量自 2020 年起已举办三届，在工业界和学术界均产生了重大的影响，吸引了包含腾讯、字节、华为等出名科技企业，中科院、北大、港中文、ETH 等科研机构参赛，其中很多参赛者都是间断参赛，竞争强烈。CVPR NTIRE 2022 压缩视频超分与加强较量蕴含三个赛道，别离是：

赛道 1：针对视频编码的高压缩比带来的失真的视频复原问题;
赛道 2：在赛道 1 的根底上，同时解决高压缩和 2 倍超分问题。;
赛道 3：在赛道 2 的根底上，进一步摸索 4 倍超分问题。

其中，Track1 和 Track2 的问题曾经在工业界失去广泛应用，将视频还原到现实视频的画质可能大幅晋升人眼感官，吸引人们的观看志愿。通过强烈的角逐，大淘宝音视频技术团队自研的视频超分办法 TaoMC2，获得了三个赛道两冠一亚（赛道 3 亚军）的问题。相干视频加强技术目前已广泛应用于点淘、逛逛在内的所有大淘宝内容业务，反对直播、短视频的实时和非实时转码过程中的画质加强；相干超分辨率技术也宽泛用于诸如弱网等场景下的低分辨率视频传输、保障低传输带宽下的高分辨率的用户播放画质体验。后文分享咱们的具体的计划——

视频品质评估依照对参考视频可用性个别能够分成三类：全参考视频品质评估、局部参考视频品质评估、和无参考视频品质评估 [1]。因为视频加强场景不存在完满的参考视频，因而更适宜采纳无参考视频品质评估办法。无参考视频品质评估作为品质评估的次要钻研方向之一，在过来的几年里失去了宽泛的关注。支流办法有：基于图像识别 [2] 或者图像品质评估 [3] 工作的预训练模型来提取视频的帧级特色、思考时序上的相关性回归特色或者进一步联合时域特色 [4]、以及针对视频失真进行端到端的特色表征学习 [5] 等。

咱们提出的办法基于 [5]，并且思考到近年来 Swin Transformer 在 CV 畛域获得巨大成功，应用 Swin Transformer V2 替换较为传统的卷积神经网络（CNN）骨干网络 ResNet 提取空域特色。同时，为了更好交融时空域特色，在时空特色交融模块中，咱们引入了一个 1×1 卷积层，它加深了从预训练网络的两头阶段提取的空间特色，以补救浅层和深层特色之间的差距。此外，为了解决常见的品质评估数据集规模过小、大模型容易过拟合的问题，咱们同时在空域和时域两个维度进行数据加强，进步模型性能。

图 1 示出了所提出的无参考视频品质评估模型的框架，包含空域特征提取模块、时域特征提取模块、和时空特色交融回归模块。具体来说，空域特色模块提取空间失真相干特色，时域特征提取模块提取静止相干信息，并且，思考到静止信息对失真感知的影响，咱们进一步交融时空域特色，而后通过特色回归映射到最终的品质分数。

图 1. VQA 模型的网络架构示例。

语义特色作为重要的空域特色常常用于品质评估，其形容图像中物体的物理个性、物体之间的时空关系、以及物体的内容信息等，属于图像的高维特色。对于不同的图像内容，语义特色会影响人眼的视觉感知：人眼通常无奈容忍纹理丰盛的内容（例如草坪、地毯）的含糊，而对纹理简略的内容（例如天空、墙面）的含糊绝对不敏感。综上思考，咱们利用从预训练的 Swin Transformer V2 [3] 网络倒数第二层 Transformer 模块输入的特色作为帧级的空间域特色，如图 2 公式所示：

图 2. 语义特色。

其中，示意从第个视频片段的第帧获取的语义特色，示意级联算子，示意全局均匀池化算子，示意 Swin Transformer V2 最初第层的特色图。

手机拍摄时的抖动会导致视频产生时域失真，并且，其无奈被视频空域特色无效地形容。因而，为了进步模型的准确度，咱们利用预训练的 SlowFast 网络 [7] 获取视频片段级的静止特色，作为时域特色表征，如图 3 公式所示：

图 3. 时域特色。

其中，示意从第个视频片段获取的静止特色，示意静止特征提取算子。

因为不同层空域特色之间存在较大的差别，对其进行间接拼接不利于时空特色交融，因而咱们先对倒数第二层输入特色进行卷积解决，而后再与最初一层输入空间特色交融以及空域特色进行交融，并通过两层全连贯层回归失去视频片段级品质分数，如图 4 所示：

图 4. 时空域特色交融与回归。

此外，咱们应用工夫上的均匀池化来聚合视频片段品质分数作为整个视频品质分数，如图 5 公式所示：

图 5. 均匀池化失去整个视频打分。

其中，示意视频分段的数目，示意视频片段级分数，残缺视频的品质可通过对视频片段打分进行均匀池化操作取得。

本次较量官网提供的训练数据集有 839 个视频，不足以训练基于 Transformer 的模型。因而，咱们从两个数据集加强策略和大型数据集预训练两种办法进步模型的新能。

数据集加强视频品质评估办法常采纳在图像中随机 crop 固定大小 patch 的形式进行空间数据加强。作为比照，咱们同时思考思考空间和工夫数据加强，如图 6 所示：

图 6. 时空域数据加强示例。

其中，整个视频会被分成 T 个视频片段（每秒一个片段）。提取空域特色时，每个视频片段随机抽取 1 帧。同时，为保留帧间的工夫关联性，抽样帧之间的工夫距离放弃不变。

LSVQ [8] 视频品质评估数据集有38,811 个视频样本，是目前最大的开源品质评估数据集。因而，咱们先在 LSVQ 数据集上对模型进行预训练，之后基于特定的工作以绝对小型的数据集微调模型。

咱们在两个公开的视频品质评估数据集 KoNViD-1k 和 LIVE-VQC 上，与现有 SOTA 办法进行了比照。咱们应用业界最罕用的 Spearman Rank Order Correlation Coefficient（SROCC）和 Pearson Linear Correlation Coefficient（PLCC）作为指标。更高的 SROCC 示意样本间更好的保序性，更高的 PLCC 示意与标注分数更好地拟合水平。后果如表 2 所示。

表 2. MD-VQA 与其余视频品质评估 SOTA 模型在 KoNViD-1k、LIVE-VQC 数据集的性能比拟。

从表中能够看出，咱们在所测试数据集上的 SROCC 和 PLCC 均超过了现有 SOTA 办法，达到了先进性能。此外，为了摸索不同优化形式对模型性能的奉献，咱们进行了融化试验（ablation study），如表 3 所示。

表 3. 骨干网络替换（Swin）、特色交融优化（Conv）、数据集加强优化（DA）和大型数据集预训练（Pre）对于模型性能的奉献比拟。

从表 3 中能够看出，骨干网络替换（Swin）、特色交融优化（Conv）、数据集加强优化（DA）和、大型数据集预训练（Pre）对于模型性能的当先性均有奉献。

如前所述，随着互联网视频化的深刻，越来越多的 UGC 等非传统广电视频（包含但不限于短视频、直播等）在淘宝直播、逛逛等平台上被生产或播放。通常，因为拍摄设施、环境、技术等各种起因，用户生产的视频画质是参差不齐的。此外，在下发的过程中，视频画质受制于到网络环境、带宽老本、用户机型差别等因素，以及对应的编解码、视频加强解决、视频传输等过程，视频画质往往不可避免地受到影响。那么，如何确保商家和用户在淘宝直播等平台极致的开播和观看体验呢？

针对这个问题，大淘宝音视频技术团队自研了针对 UGC 视频的无参考视频品质评估模型 —— MD-VQA（Multi-Dimensional Video Quality Assessment），综合视频的语义、失真、静止等多维度信息，来掂量视频相对品质的高下。MD-VQA 曾经全面利用于包含淘宝直播、逛逛在内的大淘宝内容业务，“量化”并监控视频业务的大盘画质变动，疾速、精准地筛选出不同画质水位的直播间和短视频，配合自研 S265 编码器、视频加强算子集 STaoVideo、以及《电商直播高画质开播指南》[9] 等，帮忙晋升平台内容画质。此次较量的冠军计划，就是基于 MD-VQA 摸索出的新办法。

具体来说，以淘宝直播为例，MD-VQA 提供分钟级的在线品质监控能力，可能疾速、精准地筛选不同画质水位的直播间，帮助线上低画质 badcase 的开掘剖析，实时揭示主播画质问题方面的瓶颈问题，配合《电商直播高画质开播指南》，提供改良措施，使得淘宝直播主播画质满意度显著晋升：在收到过揭示的主播中，75%+ 心愿放弃和欠缺实时揭示服务。

此外，MD-VQA 在整个阿里团体外部也在撑持越来越多的画质评估相干业务，比方钉钉直播、ICBU 直播和支付宝直播，帮助监控视频相干业务的画质体验。

Shyamprasad Chikkerur, Vijay Sundaram, Martin Reisslein, and Lina J Karam. Objective video quality assessment methods: A classification, review, and performance comparison. IEEE Transactions on Broadcasting, 57(2):165–182, 2011.
Dingquan Li, Tingting Jiang, and Ming Jiang. Quality assessment of in-the-wild videos. In Proceedings of the ACM International Conference on Multimedia, pages 2351–2359, 2019.
Yilin Wang, Junjie Ke, Hossein Talebi, Joong Gon Yim, Neil Birkbeck, Balu Adsumilli, Peyman Milanfar, and Feng Yang. Rich features for perceptual quality assessment of UGC videos. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 13435–13444, 2021.
Bowen Li, Weixia Zhang, Meng Tian, Guangtao Zhai, and Xianpei Wang. Blindly Assess Quality of In-the-Wild Videos via Quality-aware Pre-training and Motion Perception. IEEE Transactions on Circuits and Systems for Video Technology, 32(9):5944–5958, 2022.
Wei Sun, Xiongkuo Min, Wei Lu, and Guangtao Zhai. A deep learning based no-reference quality assessment model for UGC videos. In Proceedings of the ACM International Conference on Multimedia, pages 856–865, 2022
Ze Liu, Han Hu, Yutong Lin, Zhuliang Yao, Zhenda Xie, Yixuan Wei, Jia Ning, Yue Cao, Zheng Zhang, Li Dong, et al. Swin transformer v2: Scaling up capacity and resolution. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12009–12019, 2022.
Christoph Feichtenhofer, Haoqi Fan, Jitendra Malik, and Kaiming He. Slowfast networks for video recognition. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 6202–6211, 2019.
Zhenqiang Ying, Maniratnam Mandal, Deepti Ghadiyaram, and Alan Bovik. Patch-VQ:’patching up’the video quality problem. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 14019–14029, 2021.
《服贸会在京举行|淘宝直播携手佳能佳直播联结公布《电商直播高画质开播指南》让品质直播触手可及》

关于视频:大淘宝技术斩获NTIRE-2023视频质量评价比赛冠军内含夺冠方案

赛事介绍

参考计划

模型设计

空域特征提取

时域特征提取

时空域特色交融与回归

数据加强与训练

大型数据集预训练

试验后果

业务利用

参考文献

Just My Socks（注册教程内含优惠码）

关于视频:大淘宝技术斩获NTIRE-2023视频质量评价比赛冠军内含夺冠方案

赛事介绍

参考计划

模型设计

空域特征提取

时域特征提取

时空域特色交融与回归

数据加强与训练

大型数据集预训练

试验后果

业务利用

参考文献

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）