简介: 视频云大赛——优酷 MEDIA AI 算法挑战赛冠军计划分享
视频指标宰割是目前视频算法畛域的前沿话题,越来越多的利用在了各个行业场景里。本次由英特尔与阿里云联结举办、与优酷策略单干的“新内容 新交互“寰球视频云翻新挑战赛算法赛道,也将眼光聚焦于这一个畛域。大赛自开赛以来,曾经吸引了 2000 多支队伍参赛,汇聚了寰球算法精英。
本文将以“Media AI 阿里巴巴娱乐算法挑战赛”为例,精选出由优酷人工智能部算法团队提出的冠军计划,为本届大赛选手提供胜利的参赛教训和技术解读。
除传统宰割算法须要解决的视角光照变动、指标尺度变动、指标间遮挡等难点之外,面向视频智能生产的人物宰割算法还须要关注如下非凡难点:
-
视频场景内容丰盛多样:要求算法在简单背景烦扰下正确挖掘场景显著配角
-
简单衣着 / 手持 / 附属物:要求算法充沛形容指标丰盛和简单的外观语义
-
指标人物疾速激烈动作:要求算法解决静止含糊、激烈形变带来的误宰割、漏宰割
Media AI 大赛的数据集面向高精度 – 实例级 – 视频人物宰割工作,提供了 1700 段逐帧精密标注视频数据,其中初赛和复赛各 800 段训练集和 50 段测试集,对上述难点都有体现。
相比于学术 / 工业界规范的 DAVIS 和 YouTube-VOS 数据集,本数据集含有业界最多人体指标标注标签(18 万帧,30 万标注人体指标),且在标注精度、内容广度等方面均处于行业领先地位。这次数据库依靠优酷站内海量资源,囊括古装剧集、古代剧集、街拍、街舞、静止(跑酷、球类、健身)等丰盛内容,更加合乎智能化视频内容生产的事实需要。通过精细化人工标注,数据集真值掩码图精准勾画视频人物的边缘细节,为训练以及测试宰割算法的准确性和精确性提供了根据。
此外,该数据集还针对人物手持物 / 附属物进行了标注,有助于算法对人物与物品从属关系进行学习。
冠军计划算法详解
在初赛阶段,优酷人工智能部算法团队以 STM(Video Object Segmentation using Space-Time Memory Networks)为根底,进行了彻底的模型复现和以及算法改良。在复赛阶段,以初赛半监督模型为骨干,配合以指标检测、显著性判断、关键帧抉择等模块,实现高精度无监督视频宰割链路。
-
监督视频人物宰割
半监督 VOS 的工作指标是在给定第一帧物体掩码的前提下,将该物体在后续帧中间断宰割进去。
-
1 根本框架
- 提出 Spatial Constrained Memory Reader 以解决 STM 空间连续性有余问题
首先 STM 在像素匹配时是基于外观的匹配,没有思考物体在相邻两帧之间空间上的连续性。换言之,STM 会寻找与后面帧中外观类似的物体,但对该物体呈现在何地位不敏感。因而,当一帧中呈现多个外观类似物体时,STM 的宰割后果就有可能产生谬误。
针对这个问题,DAVIS2020 半监督第一名计划的解决办法是将前一帧的物体 mask 联合到 encode 之后的 feature 中,升高离前一帧物体地位较远像素的权重(如图 1 所示)。理论尝试后发现增益不大。咱们认为起因在于训练过程中给与模型过强的地位先验,导致模型宰割过分依赖于前一帧的物体地位信息,束缚了 non-local 的长距离匹配能力。一旦呈现前一帧物体被遮挡,或者前一帧物体宰割谬误的状况,整段视频的宰割后果将呈现不稳定性偏移。
图 1. Spatial-contrained STM
DAVIS2020 半监督第三名计划对此的解决方案是 kernelized memory reader(如图 2 所示),这种办法能保障 memory 中的点会匹配到 query 中最类似的一个区域,能够避免出现一对多匹配的问题。然而不能保障空间上的间断,容易呈现不可逆的误差累积。
图 2. Kernelized-memory STM
综合思考上述两种办法,咱们提出了一种既能思考前一帧物体地位信息,又不影响原始匹配训练过程的办法。如图 3 所示,利用前一帧的物体 mask 生成地位大小相干的高斯核,通过这个高斯核来修改 memory 中像素的最优匹配地位。之后流程和图 2 类似,利用每个像素的最优匹配地位对原始匹配进行修改。如此一来,既没有影响训练过程,导致 non-local 局部匹配能力升高,又引入了 spatial prior,保障了物体 mask 的空间连续性。
图 3.Spatial-contrained Mmeory Reader 示意图
- 减少 ASPP & HRNet post-refinement 以解决 STM 解码器对多尺度指标宰割精密度较差问题
通过 ASPP 减少多尺度信息的捕捉能力,利用 HRnet 对 STM 的初始宰割后果进行 refine,优化物体细节的宰割成果。
-
2 训练策略
在较量中采纳了两阶段训练的办法。第一个阶段,采纳 MS-COCO 动态图像库成视频序列进行预训练。第二个阶段,将公开数据库(DAVIS,Youtube-vos)和较量训练集进行合并训练,来保障有足够的数据量。具体训练细节如下:
-
Crop 相邻 3 帧图像 patch 进行训练,尽可能减少 augmentation。crop 时须要留神肯定要保障在第 2 和第 3 帧呈现的物体都在第一帧呈现了,否则应该过滤;
-
将 DAVIS,Youtube-vos 和较量训练集以肯定比例交融成果最好;
-
训练过程指标稳定较大,采纳 poly 学习率策略可缓解;
-
训练比拟吃显存,batch size 比拟小的话要 fix 所有的 bn 层。
-
3 其余
-
Backbone:更换 resnest101
-
测试策略:应用 Multi-scale/flip inference
-
4 后果
优酷算法团队的模型,在测试集上获得了 95.5 的问题,相比原始 STM 进步将近 5 个点。
2. 无监督视频人物宰割
无监督 VOS 的工作指标是在不给定任何标注信息的前提下,自主挖掘前景指标并进行间断的宰割。无监督 VOS 办法链路较为简单,通常不是由繁多模型解决,其中波及到指标检测、数据关联、语义宰割、实例宰割等模块。
2.1 算法框架
咱们复赛所采纳的算法流程具体分为如下四步:
a. 逐帧做实例宰割
采纳 DetectoRS 作为检测器,为保障泛化能力,没有在较量训练集上 finetune 模型,而是间接应用在 MS COCO 数据集进行训练。此阶段只保留 person 类别。阈值设为 0.1,目标是尽可能多地保留 proposal。
b. 对实例宰割的 mask 进行后处理
如下左图所示,现有 instance segmentation 的办法产生的 mask 分辨率低,边缘毛糙。咱们采纳语义宰割模型对 DetectoRS 产生的后果进行 refine(image+mask ->HRnet -> refined mask), 后果如下图。能够看出掩码图中的物体边缘以及细节都有了显著的改善。
图 4. 检测器(DetectoRS)输入掩码图(上)与 refine 后掩码图(下)
c. 帧间进行数据关联,失去初步后果
利用 STM 将 t-1 帧的 mask warp 到 t 帧,这样就能够利用 warp 后的 mask 和第 t 帧的宰割后果进行匹配。通过这个过程,弥补了静止等问题产生的影响,稳定性更高。具体的,对于首帧物体,咱们保留置信度大于 0.8 的 proposal。对第 t-1 帧和第 t 帧做数据关联时,首先利用 STM 将第 t-1 帧的后果 warp 到第 t 帧。而后用匈牙利算法对 warp 后的 mask 和第 t 帧由 DetectRS 生成的 proposal 进行二部图匹配。
d. 筛选宰割后果较好的帧作为 key frames 进行迭代优化
经上述数据关联当前,咱们曾经失去了初步的无监督 VOS 后果,其中每帧的 mask 是由 DetectRS 生成,id 是由数据关联决定。然而这个后果存在很多问题,还能够进一步优化。比如说视频开始处呈现的漏检无奈被补上。如下图所示,左侧的人在视频开始处不易被检测,直到第 10 帧才被检测进去。另外,视频中人体交叠重大处宰割品质要远低于人体间隔较大处。
因而,咱们能够依据物体数量,bbox 的交叠水平等信息筛选出一些可能宰割较好的帧作为下一轮优化的 reference。具体的,咱们能够利用筛选进去的 key frames 作为初始 memory,用 STM 进行双向预测。首先双向预测能够解决视频开始处的漏检,其次 STM 对于遮挡等问题的解决也要好过单帧的实例宰割。经试验验证,每迭代一次 STM 双向预测,指标都有小幅度晋升。
视频指标(人物)宰割(Video Object Segmentation,简称为 VOS)算法是业界公认的技术重点难点,同时又有着最为宽泛的落地场景和利用需要。置信参加本届“新内容 新交互“寰球视频云翻新挑战赛算法赛道的选手,将以视频指标宰割为终点,利用计算机视觉算法畛域的诸多技术,为行业和公众打造更加智能化、便捷化、趣味化的视频服务。
「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实际技术文章,在这里与音视频畛域一流工程师交换切磋。
版权申明: 本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。