关于计算机视觉:Prime-Video-如何使用机器学习来确保视频质量

申明：

本文转自 Amazon Science 网站，文章翻译由开发者社区提供；

点击下方链接，查看英文原文：

How Prime Video uses machine learning to ensure video quality – Amazon Science

流媒体视频可能会受到录制，编码，打包或传输过程中引入的缺点的影响，因而大多数订阅视频服务（例如 Amazon Prime Video）都会一直评估其流式传输的内容的品质。

手动内容审查——被称为眼睛测试——不能很好地进行扩大，并且它带来了本人的挑战，例如审查者对品质的认识存在差别。在行业中更常见的是应用数字信号处理来检测视频信号中常常与缺点相干的异样。

Amazon Prime Video 的块损坏检测器的初始版本应用残差神经网络生成批示特定图像地位损坏概率的映射，对该映射进行二值化，并计算损坏区域与总图像区域之间的比率。

三年前，Prime Video 的视频品质剖析 (VQA) 小组开始应用机器学习来辨认从游戏机、电视和机顶盒等设施捕捉的内容中的缺点，以验证新的应用程序版本或离线更改编码配置文件。最近，咱们始终在将雷同的技术利用于诸如对咱们的数千个频道和直播流动进行实时品质监控以及大规模剖析新目录内容等问题。

咱们在 VQA 的团队训练计算机视觉模型来观看视频并发现可能影响客户观看体验的问题，例如块状帧、意外黑帧和音频噪声。这使咱们可能解决数十万个直播流动和目录我的项目规模的视频。

咱们面临的一个乏味挑战是，因为 Prime Video 产品中视听缺点的发生率极低，训练数据中不足侧面案例。咱们应用模仿原始内容缺点的数据集来应答这一挑战。在应用此数据集开发检测器后，咱们通过对一组理论缺点进行测试来验证检测器是否能够转移到生产内容中。

干净音频的波形。

增加了点击的音频波形。

干净音频的频谱图。

增加了点击的音频频谱图。

咱们为 18 种不同类型的缺点构建了检测器，包含视频解冻和卡顿、视频撕裂、音频和视频之间的同步问题以及字幕品质问题。上面，咱们认真钻研三个缺点示例：块损坏、音频伪影和视听同步问题。

应用数字信号处理进行品质剖析的一个毛病是难以辨别某些类型的内容和有缺点的内容。例如，对于信号处理器来说，人群场景或高静止场景可能看起来像块损坏的场景，其中传输受损会导致帧内的像素块产生位移或导致像素块全副采纳雷同的色彩值。

https://assets.amazon.science…

为了检测块损坏，咱们应用了残差神经网络，该网络旨在使高层明确纠正上层脱漏的谬误（残差）。咱们将 ResNet18 网络的最初一层替换为 1 ×1 卷积（网络图中的 conv6）。

块损坏检测器的架构。

该层的输入是一个二维图，其中每个元素是特定图像区域中块损坏的概率。该二维图取决于输出图像的大小。在网络图中，一个 224 x 224 x 3 的图像传递到网络，输入是一个 7 x 7 的映射。在上面的示例中，咱们将高清图像传递给网络，生成的映射为 34 x 60 像素。

在该工具的初始版本中，咱们将映射二值化并计算损坏区域比率为 corruptionArea = areaPositive/totalArea。如果这个比率超过了某个阈值（0.07 证实成果很好），那么咱们将帧标记为有块损坏。（见下面的动画。）

然而，在该工具的以后版本中，咱们将决策函数挪动到模型中，因而它是与特征提取一起学习的。

“音频伪影”是音频信号中不须要的声音，可能通过录制过程或数据压缩引入。在后一种状况下，这是损坏块的音频等效项。然而，有时，出于创造性的起因，也会引入人工制品。

为了检测视频中的音频伪影，咱们应用无参考模型，这意味着在训练期间，它无法访问干净的音频作为比拟规范。该模型基于预训练的音频神经网络，将一秒钟的音频片段分类为无缺点、音频嗡嗡声、音频嘶嘶声、音频失真或音频咔嗒声。

目前，该模型在咱们专有的模仿数据集上达到了 0.986 的均衡精度。无关该模型的更多信息，请参阅咱们在往年的 IEEE 计算机视觉利用夏季会议上发表的论文《应用预训练的音频神经网络检测音频伪像的无参考模型（A no-reference model for detection audio artifacts using pretrained audio neural networks）》。

https://assets.amazon.science…

当音频与视频不统一时，另一个常见的品质问题是 AV 同步或唇形同步缺点。播送、接管和播放过程中的问题可能会使音频和视频不同步。

为了检测唇形同步缺点，咱们基于牛津大学的 SyncNet 架构构建了一个检测器——咱们称之为 LipSync。

LipSync 管道的输出是一个四秒的视频片段。它传递给镜头检测模型，该模型辨认镜头边界；人脸检测模型，用于辨认每一帧中的人脸；以及人脸跟踪模型，该模型将间断帧中的人脸识别为属于同一个人。

提取面部轨迹的预处理管道——以单个面部为核心的四秒剪辑。

人脸跟踪模型的输入（称为人脸轨迹）和相干音频而后传递到 SyncNet 模型，该模型在人脸轨迹上聚合以确定剪辑是否同步、不同步或不确定，这意味着有要么没有检测到面部 / 面部轨迹，要么有雷同数量的同步和不同步预测。

这些是咱们武器库中精选的一些检测器。2022 年，咱们将持续致力于欠缺和改良咱们的算法。在正在进行的工作中，咱们正在应用被动学习（通过算法抉择特地有用的训练示例）来一直地从新训练咱们部署的模型。

为了生成合成数据集，咱们正在钻研 EditGan，这是一种新办法，能够更准确地管制生成反抗网络 (GAN) 的输入。咱们还应用咱们的自定义 Amazon 云原生应用程序和 SageMaker 施行来扩大咱们的缺点检测器，监控所有直播事件和视频频道。

文章作者： Sathya Balakrishnan & Ihsan Ozcelik

Sathya Balakrishnan 是 Amazon Prime Video 的软件开发经理。

Ihsan Ozcelik 是 Amazon Prime Video 的高级软件开发工程师。

关于计算机视觉:Prime-Video-如何使用机器学习来确保视频质量

咱们如何将音频点击引入干净音频的示例

块损坏

音频伪影检测

音视频同步检测

将来的工作