关于视频处理:视频云全球创新挑战赛-视频目标分割经典算法解析

视频云大赛——优酷 MEDIA AI 算法挑战赛冠军计划分享

视频指标宰割是目前视频算法畛域的前沿话题，越来越多的利用在了各个行业场景里。本次由英特尔与阿里云联结举办、与优酷策略单干的 “新内容新交互 “寰球视频云翻新挑战赛算法赛道，也将眼光聚焦于这一个畛域。大赛自开赛以来，曾经吸引了 2000 多支队伍参赛，汇聚了寰球算法精英。

本文将以 “Media AI 阿里巴巴娱乐算法挑战赛” 为例，精选出由优酷人工智能部算法团队提出的冠军计划，为本届大赛选手提供胜利的参赛教训和技术解读。

除传统宰割算法须要解决的视角光照变动、指标尺度变动、指标间遮挡等难点之外，面向视频智能生产的人物宰割算法还须要关注如下非凡难点：

视频场景内容丰盛多样：要求算法在简单背景烦扰下正确挖掘场景显著配角
简单衣着 / 手持 / 附属物：要求算法充沛形容指标丰盛和简单的外观语义
指标人物疾速激烈动作：要求算法解决静止含糊、激烈形变带来的误宰割、漏宰割

Media AI 大赛的数据集面向高精度 – 实例级 – 视频人物宰割工作，提供了 1700 段逐帧精密标注视频数据，其中初赛和复赛各 800 段训练集和 50 段测试集，对上述难点都有体现。
相比于学术 / 工业界规范的 DAVIS 和 YouTube-VOS 数据集，本数据集含有业界最多人体指标标注标签（18 万帧，30 万标注人体指标），且在标注精度、内容广度等方面均处于行业领先地位。这次数据库依靠优酷站内海量资源，囊括古装剧集、古代剧集、街拍、街舞、静止（跑酷、球类、健身）等丰盛内容，更加合乎智能化视频内容生产的事实需要。通过精细化人工标注，数据集真值掩码图精准勾画视频人物的边缘细节，为训练以及测试宰割算法的准确性和精确性提供了根据。

此外，该数据集还针对人物手持物 / 附属物进行了标注，有助于算法对人物与物品从属关系进行学习。

冠军计划算法详解

在初赛阶段，优酷人工智能部算法团队以 STM（Video Object Segmentation using Space-Time Memory Networks）为根底，进行了彻底的模型复现和以及算法改良。在复赛阶段，以初赛半监督模型为骨干，配合以指标检测、显著性判断、关键帧抉择等模块，实现高精度无监督视频宰割链路。

1. 监督视频人物宰割

半监督 VOS 的工作指标是在给定第一帧物体掩码的前提下，将该物体在后续帧中间断宰割进去。

1. 1 根本框架

提出 Spatial Constrained Memory Reader 以解决 STM 空间连续性有余问题

首先 STM 在像素匹配时是基于外观的匹配，没有思考物体在相邻两帧之间空间上的连续性。换言之，STM 会寻找与后面帧中外观类似的物体，但对该物体呈现在何地位不敏感。因而，当一帧中呈现多个外观类似物体时，STM 的宰割后果就有可能产生谬误。

针对这个问题，DAVIS2020 半监督第一名计划的解决办法是将前一帧的物体 mask 联合到 encode 之后的 feature 中，升高离前一帧物体地位较远像素的权重（如图 1 所示）。理论尝试后发现增益不大。咱们认为起因
在于训练过程中给与模型过强的地位先验，导致模型宰割过分依赖于前一帧的物体地位信息，束缚了 non-local 的长距离匹配能力。一旦呈现前一帧物体被遮挡，或者前一帧物体宰割谬误的状况，整段视频的宰割后果将呈现不稳定性偏移。

图 1. Spatial-contrained STM

DAVIS2020 半监督第三名计划对此的解决方案是 kernelized memory reader（如图 2 所示），这种办法能保障 memory 中的点会匹配到 query 中最类似的一个区域，能够避免出现一对多匹配的问题。然而不能保障空间上的间断，容易呈现不可逆的误差累积。

图 2. Kernelized-memory STM

综合思考上述两种办法，咱们提出了一种既能思考前一帧物体地位信息，又不影响原始匹配训练过程的办法。如图 3 所示，利用前一帧的物体 mask 生成地位大小相干的高斯核，通过这个高斯核来修改 memory 中像素的最优匹配地位。之后流程和图 2 类似，利用每个像素的最优匹配地位对原始匹配进行修改。如此一来，既没有影响训练过程，导致 non-local 局部匹配能力升高，又引入了 spatial prior，保障了物体 mask 的空间连续性。

图 3.Spatial-contrained Mmeory Reader 示意图

减少 ASPP & HRNet post-refinement 以解决 STM 解码器对多尺度指标宰割精密度较差问题
通过 ASPP 减少多尺度信息的捕捉能力，利用 HRnet 对 STM 的初始宰割后果进行 refine，优化物体细节的宰割成果。

1. 2 训练策略

在较量中采纳了两阶段训练的办法。第一个阶段，采纳 MS-COCO 动态图像库成视频序列进行预训练。第二个阶段，将公开数据库（DAVIS,Youtube-vos）和较量训练集进行合并训练，来保障有足够的数据量。具体训练细节如下：

Crop 相邻 3 帧图像 patch 进行训练，尽可能减少 augmentation。crop 时须要留神肯定要保障在第 2 和第 3 帧呈现的物体都在第一帧呈现了，否则应该过滤；
将 DAVIS,Youtube-vos 和较量训练集以肯定比例交融成果最好；
训练过程指标稳定较大，采纳 poly 学习率策略可缓解；
训练比拟吃显存，batch size 比拟小的话要 fix 所有的 bn 层。

1. 3 其余

Backbone：更换 resnest101
测试策略：应用 Multi-scale/flip inference

1. 4 后果

优酷算法团队的模型，在测试集上获得了 95.5 的问题，相比原始 STM 进步将近 5 个点。

### 2. 无监督视频人物宰割
无监督 VOS 的工作指标是在不给定任何标注信息的前提下，自主挖掘前景指标并进行间断的宰割。无监督 VOS 办法链路较为简单，通常不是由繁多模型解决，其中波及到指标检测、数据关联、语义宰割、实例宰割等模块。

2.1 算法框架

咱们复赛所采纳的算法流程具体分为如下四步：

a. 逐帧做实例宰割

采纳 DetectoRS 作为检测器，为保障泛化能力，没有在较量训练集上 finetune 模型，而是间接应用在 MS COCO 数据集进行训练。此阶段只保留 person 类别。阈值设为 0.1，目标是尽可能多地保留 proposal。

b. 对实例宰割的 mask 进行后处理

如下左图所示，现有 instance segmentation 的办法产生的 mask 分辨率低，边缘毛糙。咱们采纳语义宰割模型对 DetectoRS 产生的后果进行 refine（image+mask ->HRnet -> refined mask）, 后果如下图。能够看出掩码图中的物体边缘以及细节都有了显著的改善。

图 4. 检测器（DetectoRS）输入掩码图（上）与 refine 后掩码图（下）

c. 帧间进行数据关联，失去初步后果

利用 STM 将 t-1 帧的 mask warp 到 t 帧，这样就能够利用 warp 后的 mask 和第 t 帧的宰割后果进行匹配。通过这个过程，弥补了静止等问题产生的影响，稳定性更高。具体的，对于首帧物体，咱们保留置信度大于 0.8 的 proposal。对第 t-1 帧和第 t 帧做数据关联时，首先利用 STM 将第 t-1 帧的后果 warp 到第 t 帧。而后用匈牙利算法对 warp 后的 mask 和第 t 帧由 DetectRS 生成的 proposal 进行二部图匹配。

d. 筛选宰割后果较好的帧作为 key frames 进行迭代优化

经上述数据关联当前，咱们曾经失去了初步的无监督 VOS 后果，其中每帧的 mask 是由 DetectRS 生成，id 是由数据关联决定。然而这个后果存在很多问题，还能够进一步优化。比如说视频开始处呈现的漏检无奈被补上。如下图所示，左侧的人在视频开始处不易被检测，直到第 10 帧才被检测进去。另外，视频中人体交叠重大处宰割品质要远低于人体间隔较大处。

因而，咱们能够依据物体数量，bbox 的交叠水平等信息筛选出一些可能宰割较好的帧作为下一轮优化的 reference。具体的，咱们能够利用筛选进去的 key frames 作为初始 memory，用 STM 进行双向预测。首先双向预测能够解决视频开始处的漏检，其次 STM 对于遮挡等问题的解决也要好过单帧的实例宰割。经试验验证，每迭代一次 STM 双向预测，指标都有小幅度晋升。

视频指标（人物）宰割（Video Object Segmentation，简称为 VOS）算法是业界公认的技术重点难点，同时又有着最为宽泛的落地场景和利用需要。置信参加本届 “新内容新交互 “寰球视频云翻新挑战赛算法赛道的选手，将以视频指标宰割为终点，利用计算机视觉算法畛域的诸多技术，为行业和公众打造更加智能化、便捷化、趣味化的视频服务。

大家好，咱们是阿里云视频云团队。最近咱们在举办寰球视频云翻新挑战赛，与此同时咱们还想把优良的算法分享给宽广开发者，所以咱们组织了包含阿里团体精英算法同学在内的技术交换群。退出此群，你将取得：

阿里算法学习材料
阿里出品收费算法课程
算法大佬一对一 battle
沉闷的技术探讨

咱们致力于打造最靠谱算法技术交换群，预报一下，最近咱们将推出算法公开课，讲师是来自阿里云视频云团队的海归博士，带来趣味区域（ ROI ）智能视频编码的算法分享。想要进群的同学请关注「视频云技术」公众号，后盾回复 “算法” 进入交换群。

关于视频处理:视频云全球创新挑战赛-视频目标分割经典算法解析

冠军计划算法详解

1. 监督视频人物宰割

1. 1 根本框架

1. 2 训练策略

1. 3 其余

1. 4 后果

2.1 算法框架

a. 逐帧做实例宰割

b. 对实例宰割的 mask 进行后处理

c. 帧间进行数据关联，失去初步后果

d. 筛选宰割后果较好的帧作为 key frames 进行迭代优化

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于视频处理:视频云全球创新挑战赛-视频目标分割经典算法解析

冠军计划算法详解

1. 监督视频人物宰割

1. 1 根本框架

1. 2 训练策略

1. 3 其余

1. 4 后果

2.1 算法框架

a. 逐帧做实例宰割

b. 对实例宰割的 mask 进行后处理

c. 帧间进行数据关联，失去初步后果

d. 筛选宰割后果较好的帧作为 key frames 进行迭代优化

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复