关于算法:视频云大赛|视频目标分割下一个视频算法技术爆发点

36次阅读

共计 3677 个字符,预计需要花费 10 分钟才能阅读完成。

近年来随着智能挪动终端和互联网的疾速倒退,视频数据出现指数级增长。视频指标宰割领有泛滥的生产落地场景,特地是最近火爆的视频会议、视频直播、短视频制作等场景中的利用极为宽泛,因而如何为用户打造更智能、更优质、更沉迷的体验,实现对视频中趣味对象的高精度主动宰割,成为了十分热门的钻研方向。由阿里云视频云主办的寰球视频云翻新大赛,在算法赛道重点攻克视频指标宰割方向,就此,咱们开展理解这项技术的倒退、价值和要害因素。

作者|两头

业界公认的技术难点

视频指标宰割(Video Object Segmentation,简称为 VOS)旨在在整个输出视频序列中对指标对象实例进行高质量的宰割,获取指标对象像素级的蒙版,从而把指标从背景图像中精密的宰割进去。相比于指标跟踪、检测等限位框级任务(用矩形框将指标框选进去),VOS 具备像素级精度,更利于精确定位指标以及勾画指标边缘细节。

视频对象宰割是计算机视觉畛域的根本工作之一,也是业界公认的技术重点和难点 ,在视频了解和编辑,高清视频压缩,人机交互以及主动驾驶等畛域具备宽泛的利用价值和落地需要。同时,视频指标的宰割后果也是视频内容生产二次创作的重要素材,可能赋能内容生产者,晋升内容生产效率。

视频指标宰割技术在主动驾驶畛域的利用 图片起源:(CVPR), 2021。

图像宰割算法有较长的钻研历史,从最早的阈值化、直方图、区域成长、k – 均值聚类、分水岭办法,到更先进的被动轮廓模型、Graph-cuts、条件随机场和马尔可夫随机场等办法。

近年来随着深度学习的疾速倒退,基于深度神经网络产生了一批新一代的宰割模型,其性能取得了显著进步,在风行的基准测试上通常都达到了最高的准确率。在视频场景下,相比于单纯地逐帧实现图像宰割,视频指标宰割依靠于多帧间的连续性,能够实现宰割后果的高平滑、高精度。

从利用条件和场景的角度登程, 视频对象宰割可分为无监督(弱监督)VOS、半监督 VOS 和交互式 VOS

半监督 VOS 依靠视频第一帧一个(多个)对象的实在宰割蒙版,主动估算其余帧对象的细化蒙版。

交互式 VOS 依附用户的简略互动,如涂鸦或点击,提供待宰割指标的大抵地位,进而估算、细化指标的准确蒙版。

无监督 VOS 是全自动的视频指标宰割办法,最具挑战性,仅依附视频输出(单目 RGB),宰割视频中显著指标的精密蒙版,相比于半监督和交互式,无监督 VOS 须要定义显著性指标并提供额定的显著性物体检测模块。然而 VOS 算法除了要解决图像宰割面临的视角变动、光照变动、指标尺度变动、遮挡等难点之外,视频场景下简单的背景烦扰、指标物体静止含糊以及指标四周简单的附属物等,都对 VOS 算法提出了微小的挑战。同时,视频数据处理数据量通常是几十倍于图像数据,因而 VOS 算法的计算量和复杂度也成了限度 VOS 是否胜利利用的重要衡量标准,随着视频指标宰割技术热度的继续减少,越来愈多的视频算法模型衍生进去。

图片来自论文 Video Object Segmentation with Re-identification,CVPR 2017

算法模型减速翻新

近年来视频指标宰割算法有基于第一帧的 mask 进行流传的,也有基于检测在线学习的,STM[1] 的呈现交融了上述两种思维的长处,首次将 Memory Network 引入 VOS 畛域,引申为一个 space-time 的 memory network,并实现了较好的宰割准确率以及较快的速度。在业界驰名的 DAVIS 2020 大赛中,很多优良的模型都是依据 STM 进行革新的,可见其具备很棒的指导意义和钻研价值。上面,咱们就以 DAVIS 2020 大赛的优胜计划为例,介绍几种具备代表性的算法。

阿里达摩院提出的算法 [2] 是 DAVIS-20 半监督 VOS 赛道的冠军计划 ,它基于 STM,以 ResNeST101 为 backbone,减少空间束缚模块(Spatial Constraint Module)以确保相邻帧之间的空间一致性,打消外观混同,打消由同一类别的类似实例引起的谬误预测,并在 segmentation head 中减少了 ASPP (Atrous Spatial Pyramid Pooling) 模块来解决尺度变动(scale variability)的问题,同时应用了额定的 refinement module 来晋升宰割图像边缘的精密度。

CFBI[3] 提出了一种前背景整合的合作式视频指标宰割算法 ,也是一种基于匹配的半监督宰割算法,与之前的办法只思考前景指标特色学习不同的是,CFBI 开创性的同时、等同地解决前景和背景信息,不仅提取以后帧的嵌入特色并与参考帧中的前景指标进行匹配,而且还对背景区域进行匹配以缓解背景凌乱,从而失去更好的宰割后果。CFBI 进一步拓展了在多尺度特色上进行匹配,在 DAVIS2020 半监督宰割赛道上与达摩院的算法性能靠近,取得第 2 名。

Garg 等人提出的框架 [4] 是 DAVIS-20 无监督 VOS 赛道的冠军计划 ,次要联合了 Proposal 和 STM,首先利用 Mask-RCNN 生成第一帧中可能的指标宰割 mask(proposal),接着利用 STM 将第一帧的 Proposal 程序传导到其余帧,再将 STM 预测的 mask(带 ID)与第一帧的 Proposal 建设匹配关系,最初筛选出最精确的 mask 作为最终的宰割后果。阿里提出的无监督 VOS 计划 法 [5] 与 [4] 一样利用了 Proposal 和 STM 来实现整个算法,次要是利用跟踪来交融不同的 proposal,在无监督 VOS 赛道中取得亚军。目前支流的无监督 VOS 跟上述两个工作的思路基本一致。

更精、更快、更交融

目前对视频指标宰割的钻研次要分为两方面, 一是如何利用视频帧之间的时序信息进步图像宰割的精度;二是如何利用视频帧之间的相似性确定关键帧,缩小计算量,晋升模型的运行速度。

在晋升宰割精度方面个别是设计新的模块,将新模块与现有的 CNNs 联合;在缩小计算量方面,利用帧序列的低层特色相关性抉择关键帧,同时缩小操作工夫。具体来说,视频指标宰割这几年的倒退代表了科研畛域对 sequential data 的意识有了很大的停顿,无论是视频数据还是文本数据实质上都是 sequential data,在 NLP 畛域通过 attention 机制对全局信息进行建模之后,这种思路在视频畛域也逐步成为了一种共识。

所以, 一个很重要的方向是多畛域的交融 ,像视频指标跟踪(VOT)、检测(VOD)、ReID、视频了解以及更大的 meta learning、video representation learning、few-shot learning、metric learning 跟视频宰割都是高度相干的。

第二个是找到一种对立的解决方案 ,比方用一个网络解决无监督和半监督 VOS,甚至是解决视频指标跟踪(VOT)、视频指标检测(VOD)和多指标跟踪(MOT)等问题。

第三个是摸索一些更加高效的训练范式 ,视频数据的标注十分艰难且老本很高,联合半监督或者无监督的学习办法,肯定会为视频指标宰割带来比拟大的改革。

参考文献

[1] Oh S W, Lee J Y, Xu N, et al. Video object segmentation using space-time memory networks[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 9226-9235.

[2] Zhang P, Hu L, Zhang B, et al. Spatial Consistent Memory Network for Semi-supervised Video Object Segmentation[C]//CVPR Workshops. 2020, 6.

[3] Yang Z, Wei Y, Yang Y. Collaborative video object segmentation by foreground-background integration[C]//European Conference on Computer Vision. Springer, Cham, 2020: 332-348.

[4] Garg S, Goel V, Kumar S. Unsupervised Video Object Segmentation using Online Mask Selection and Space-time Memory Networks[J].

[5] Zhou T, Wang W, Yao Y, et al. Target-Aware Adaptive Tracking for Unsupervised Video Object Segmentation[C]//The DAVIS Challenge on Video Object Segmentation on CVPR Workshop. 2020.


视频云大赛正在炽热报名中

扫码或点击下方链接,一起驱动下一代浪潮!
https://tianchi.aliyun.com/sp…

「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实际技术文章,在这里与音视频畛域一流工程师交换切磋。

正文完
 0