共计 3540 个字符,预计需要花费 9 分钟才能阅读完成。
被誉为计算机视觉畛域“奥斯卡”的 CVPR 刚刚落下帷幕,2021 年首届“新内容 新交互”寰球视频云翻新挑战赛正炽热进行中,这两场大赛都不谋而合地将关注点放在了视频指标宰割畛域,本文将具体分享来自阿里达摩院的团队在 CVPR DAVIS 视频指标宰割较量夺冠背地的技术教训,为本届大赛参赛选手提供“他山之石”。
作者|负天
与图像识别不同,AI 剖析了解视频的技术门槛较高。长期以来,业界在视频 AI 技术的钻研上鲜有重大突破。以 CVPR 会议难度最高的较量之一 DAVIS(Densely Annotated Video Segmentation)为例,该较量须要参赛团队精准解决简单视频中物体疾速静止、外观变动、遮挡等信息,过来几年,寰球顶级科技在该较量中的问题从未冲破 80 分,而达摩院的模型最终在 test-challenge 上获得了 84.1 的问题。
DAVIS 的数据集通过精心筛选和标注,视频宰割中比拟难的点都有体现,比方:疾速静止、遮挡、隐没与重现、形变等。DAVIS 的数据分为 train(60 个视频序列),val(30 个视频序列),test-dev(30 个视频序列),test-challenge(30 个视频序列)。其中 train 和 val 是能够下载的,且提供了每一帧的标注信息。对于半监督工作,test-dev 和 test-challenge,每一帧的 RGB 图片能够下载,且第一帧的标注信息也提供了。算法须要依据第一帧的标注 mask,来对后续帧进行宰割。宰割自身是 instance 级别的。
阿里达摩院:像素级视频宰割
阿里达摩院提供了一种全新的空间束缚办法,突破了传统 STM 办法不足时序性的瓶颈,能够让零碎基于视频前一帧的画面预测指标物体下一帧的地位;此外,阿里还引入了语义宰割中的精细化宰割微调模块,大幅提高了宰割的精密水平。最终,精准辨认动静指标的轮廓边界,并且与背景进行拆散,实现像素级指标宰割。
根本框架
达摩院的算法基于 2019 年 CVPR 的 STM 做了进一步改良。STM 的次要思维在于,对于历史帧,每一帧都编码为 key-value 模式的 feature。预测以后帧的时候,以以后帧的 key 去和历史帧的 key 做匹配。匹配的形式是 non-local 的。这种 non-local 的匹配,能够看做将以后 key,每个坐标上的 C 维特色,和历史每一帧在这个坐标上的 C 维特色做匹配。匹配失去的后果,作为一个 soft 的 index,去读取历史 value 的信息。读取的特色和以后帧的 value 拼接起来,用于后续的预测。
三大技术创新
1. 空间束缚
STM 的特色匹配形式,提供了一种空间上的长依赖,相似于 Transformer 中,通过 self-attention 来做序列关联。这种机制,可能很好地解决物体静止、外观变动、遮挡等。但也有一个问题,就是不足时序性,短少短时依赖。当某一帧忽然呈现和指标类似的物体时,容易产生误召回。在视频场景中,很多状况下,以后帧邻近的几帧,对以后帧的影响要大于更早的帧。基于这一点,达摩院提出依附前一帧后果,计算 attention 来束缚以后帧指标预测的地位,相当于对短期依赖的建模。
具体的办法如下图所示:
- 以后帧的特色和前一帧的预测 mask 在 channel 维度上做 concat,失去 HxWx (c+1) 的特色;
- 通过卷积将特色压缩为 HxW;
- 用 sigmoid 函数将 HxW 的特色,压缩范畴,作为空间 attention;
- 把 attention 乘到原特色上,作为空间束缚。
下图为空间 attention 的可视化后果,能够看到大抵对应了前景的地位。
2. 加强 decoder
达摩院引入了语义宰割中的感触野加强技术 ASPP 和精细化宰割的微调(refinement)模块。ASPP 作用于 memory 读取后的特色,用于交融不同感触野的信息,晋升对不同尺度物体的解决能力。
3. 训练策略
达摩院提出了一个简略然而无效的训练策略,缩小了训练阶段和测试阶段存在的差别,晋升了最终成果。
原始 STM 训练时,会随机从视频中采样 3 帧。这三帧之间的跳帧距离,随着训练逐步增大,目标是加强模型鲁棒性。但达摩院发现,这样会导致训练时和测试时不统一,因为测试时,是逐帧解决的。为此,在训练的最初阶段,达摩院将跳帧距离从新减小,以保障和测试时统一。
其余
backbone: 达摩院应用了 ResNeST 这个比拟新的 backbone,它能够无痛替换掉原 STM 的 resnet。在后果上有比拟显著晋升。
测试策略: 达摩院应用了多尺度测试和 model ensemble。不同尺度和不同 model 的后果,在最终预测的 map 上,做了简略的等权重均匀。
显存优化: 达摩院做了一些显存优化方面的工作,使得 STM 在多指标模式下,能够反对大尺度的训练、测试,以及反对较大的 memory 容量。
数据: 训练数据上,达摩院应用了 DAVIS、Youtube-VOS,以及 STM 原文用到的动态图像数据库。没有其余数据。
后果
达摩院的模型,最终在 test-challenge 上获得了 84.1 的问题。
在 test-dev 上的融化试验。达摩院复现的 STM 达到了和原文统一的后果。在各种 trick 的加持下,失去了 11 个点的晋升。
随着互联网技术、5G 技术等的倒退,短视频、视频会议、直播的场景越来越多,视频宰割技术也将成为不可或缺的一环。比方,在视频会议中,视频宰割能够准确辨别前背景,从而对背景进行虚化或替换;在直播中,用户只须要站在绿幕前,算法就实时替换背景,实现一秒钟换新直播间;在视频编辑畛域,能够辅助进行后期制作。
参考
- Oh SW, Lee JY, Xu N, Kim SJ. Video object segmentation using space-time memory networks. InProceedings of the IEEE International Conference on Computer Vision 2019
- Wang X, Girshick R, Gupta A, He K. Non-local neural networks. InProceedings of the IEEE conference on computer vision and pattern recognition 2018
“新内容 新交互”寰球视频云翻新挑战赛算法挑战赛道
本届寰球视频云翻新挑战赛是由阿里云联手英特尔主办,与优酷策略技术单干,面向企业以及集体开发者的音视频畛域的挑战赛。算法挑战赛道聚焦视频人像宰割畛域,视频宰割将传统图像宰割问题延长到视频畛域,可服务于视频了解解决和编辑等工作。
算法赛道形容
本次大赛提供一个大规模高精度视频人像宰割数据集,供参赛选手训练模型。不同于传统的二值宰割指标(即人像区域标注为 1,其余区域标注为 0),本比赛重点关注宰割各个不同的人象实例,指标是从视频中准确、稳固宰割出显著的(单个或多个)人体实例,以及其相应附属物、手持物。
本次较量分为初赛数据集和复赛数据集。复赛数据集等初赛完结后颁布,复赛中也能够应用初赛数据集。
初赛环节提供训练集供选手下载,训练数据集共 1650 段视频。训练集中每个样本由 RGB 图像序列和掩码图像序列组成,RGB 图像序列为原始视频图像序列,格局为 jpg 文件;掩码图像为人体宰割的真值 (ground-truth),格局为 png 文件,掩码图像中不同的像素值示意不同的人体实例,0 为背景区域,非 0 为前景区域(例如 1 为人像 1,2 为人像 2)。RGB 和 png 文件是一一对应关系。数据集每个视频的长度为 80 帧~150 帧,每个视频的分辨率不完全相同。预赛的测试数据为 48 段视频。测试集只提供 RGB 图像序列。如呈现多集体像实例,每个人像能够任意程序标注,评测时将被独立计算。
本次较量容许参数选手应用其余公开数据集和公开模型,但参赛选手的模型必须满足能在限定工夫内复现的要求,复现精度小于规定误差。
评估规范
对于算法复原的视频后果,本次较量采纳 Mean J And F 做为评估指标。J 为形容宰割人体区域精度的 Jaccard Index,F 为形容宰割人体的边界精确度。具体请参照参考文献 1。每个视频容许选手最多输入 8 个人物宰割后果,选手宰割后果与真值先进行 IOU 匹配,找到对应的人物后,依据该后果进行评分。多余的宰割后果,没有惩办。如果超过 8 个区域,整个视频后果有效。
奖项设置
冠军:1 支队伍,奖金 9 万人民币,颁发获奖证书
亚军:2 支队伍,奖金 3 万人民币,颁发获奖证书
季军:3 支队伍,奖金 1 万人民币,颁发获奖证书
Cooper Lake 最佳实际:3 支队伍,奖金 2 万人民币,颁发获奖证书
此外,复赛审核通过的排名前 12 队伍,可进入阿里云校招绿色通道。
视频云大赛正在炽热报名中
扫码或点击下方链接,一起驱动下一代浪潮!
https://tianchi.aliyun.com/co…