关于计算机视觉:为拿下算法-奥斯卡阿里团队设计了一个冠军方案

被誉为计算机视觉畛域“奥斯卡”的 CVPR 刚刚落下帷幕，2021 年首届“新内容新交互”寰球视频云翻新挑战赛正炽热进行中，这两场大赛都不谋而合地将关注点放在了视频指标宰割畛域，本文将具体分享来自阿里达摩院的团队在 CVPR DAVIS 视频指标宰割较量夺冠背地的技术教训，为本届大赛参赛选手提供“他山之石”。

作者|负天

与图像识别不同，AI 剖析了解视频的技术门槛较高。长期以来，业界在视频 AI 技术的钻研上鲜有重大突破。以 CVPR 会议难度最高的较量之一 DAVIS（Densely Annotated Video Segmentation）为例，该较量须要参赛团队精准解决简单视频中物体疾速静止、外观变动、遮挡等信息，过来几年，寰球顶级科技在该较量中的问题从未冲破 80 分，而达摩院的模型最终在 test-challenge 上获得了 84.1 的问题。

DAVIS 的数据集通过精心筛选和标注，视频宰割中比拟难的点都有体现，比方：疾速静止、遮挡、隐没与重现、形变等。DAVIS 的数据分为 train（60 个视频序列），val（30 个视频序列），test-dev（30 个视频序列），test-challenge（30 个视频序列）。其中 train 和 val 是能够下载的，且提供了每一帧的标注信息。对于半监督工作，test-dev 和 test-challenge，每一帧的 RGB 图片能够下载，且第一帧的标注信息也提供了。算法须要依据第一帧的标注 mask，来对后续帧进行宰割。宰割自身是 instance 级别的。

阿里达摩院提供了一种全新的空间束缚办法，突破了传统 STM 办法不足时序性的瓶颈，能够让零碎基于视频前一帧的画面预测指标物体下一帧的地位；此外，阿里还引入了语义宰割中的精细化宰割微调模块，大幅提高了宰割的精密水平。最终，精准辨认动静指标的轮廓边界，并且与背景进行拆散，实现像素级指标宰割。

达摩院的算法基于 2019 年 CVPR 的 STM 做了进一步改良。STM 的次要思维在于，对于历史帧，每一帧都编码为 key-value 模式的 feature。预测以后帧的时候，以以后帧的 key 去和历史帧的 key 做匹配。匹配的形式是 non-local 的。这种 non-local 的匹配，能够看做将以后 key，每个坐标上的 C 维特色，和历史每一帧在这个坐标上的 C 维特色做匹配。匹配失去的后果，作为一个 soft 的 index，去读取历史 value 的信息。读取的特色和以后帧的 value 拼接起来，用于后续的预测。

STM 的特色匹配形式，提供了一种空间上的长依赖，相似于 Transformer 中，通过 self-attention 来做序列关联。这种机制，可能很好地解决物体静止、外观变动、遮挡等。但也有一个问题，就是不足时序性，短少短时依赖。当某一帧忽然呈现和指标类似的物体时，容易产生误召回。在视频场景中，很多状况下，以后帧邻近的几帧，对以后帧的影响要大于更早的帧。基于这一点，达摩院提出依附前一帧后果，计算 attention 来束缚以后帧指标预测的地位，相当于对短期依赖的建模。

具体的办法如下图所示：

以后帧的特色和前一帧的预测 mask 在 channel 维度上做 concat，失去 HxWx (c+1) 的特色；
通过卷积将特色压缩为 HxW；
用 sigmoid 函数将 HxW 的特色，压缩范畴，作为空间 attention；
把 attention 乘到原特色上，作为空间束缚。

下图为空间 attention 的可视化后果，能够看到大抵对应了前景的地位。

达摩院引入了语义宰割中的感触野加强技术 ASPP 和精细化宰割的微调（refinement）模块。ASPP 作用于 memory 读取后的特色，用于交融不同感触野的信息，晋升对不同尺度物体的解决能力。

达摩院提出了一个简略然而无效的训练策略，缩小了训练阶段和测试阶段存在的差别，晋升了最终成果。

原始 STM 训练时，会随机从视频中采样 3 帧。这三帧之间的跳帧距离，随着训练逐步增大，目标是加强模型鲁棒性。但达摩院发现，这样会导致训练时和测试时不统一，因为测试时，是逐帧解决的。为此，在训练的最初阶段，达摩院将跳帧距离从新减小，以保障和测试时统一。

backbone: 达摩院应用了 ResNeST 这个比拟新的 backbone，它能够无痛替换掉原 STM 的 resnet。在后果上有比拟显著晋升。

测试策略: 达摩院应用了多尺度测试和 model ensemble。不同尺度和不同 model 的后果，在最终预测的 map 上，做了简略的等权重均匀。

显存优化: 达摩院做了一些显存优化方面的工作，使得 STM 在多指标模式下，能够反对大尺度的训练、测试，以及反对较大的 memory 容量。

数据: 训练数据上，达摩院应用了 DAVIS、Youtube-VOS，以及 STM 原文用到的动态图像数据库。没有其余数据。

达摩院的模型，最终在 test-challenge 上获得了 84.1 的问题。

在 test-dev 上的融化试验。达摩院复现的 STM 达到了和原文统一的后果。在各种 trick 的加持下，失去了 11 个点的晋升。

随着互联网技术、5G 技术等的倒退，短视频、视频会议、直播的场景越来越多，视频宰割技术也将成为不可或缺的一环。比方，在视频会议中，视频宰割能够准确辨别前背景，从而对背景进行虚化或替换；在直播中，用户只须要站在绿幕前，算法就实时替换背景，实现一秒钟换新直播间；在视频编辑畛域，能够辅助进行后期制作。

Oh SW, Lee JY, Xu N, Kim SJ. Video object segmentation using space-time memory networks. InProceedings of the IEEE International Conference on Computer Vision 2019
Wang X, Girshick R, Gupta A, He K. Non-local neural networks. InProceedings of the IEEE conference on computer vision and pattern recognition 2018

本届寰球视频云翻新挑战赛是由阿里云联手英特尔主办，与优酷策略技术单干，面向企业以及集体开发者的音视频畛域的挑战赛。算法挑战赛道聚焦视频人像宰割畛域，视频宰割将传统图像宰割问题延长到视频畛域，可服务于视频了解解决和编辑等工作。

本次大赛提供一个大规模高精度视频人像宰割数据集，供参赛选手训练模型。不同于传统的二值宰割指标（即人像区域标注为 1，其余区域标注为 0），本比赛重点关注宰割各个不同的人象实例，指标是从视频中准确、稳固宰割出显著的（单个或多个）人体实例，以及其相应附属物、手持物。

本次较量分为初赛数据集和复赛数据集。复赛数据集等初赛完结后颁布，复赛中也能够应用初赛数据集。

初赛环节提供训练集供选手下载，训练数据集共 1650 段视频。训练集中每个样本由 RGB 图像序列和掩码图像序列组成，RGB 图像序列为原始视频图像序列，格局为 jpg 文件；掩码图像为人体宰割的真值 (ground-truth)，格局为 png 文件，掩码图像中不同的像素值示意不同的人体实例，0 为背景区域，非 0 为前景区域（例如 1 为人像 1，2 为人像 2）。RGB 和 png 文件是一一对应关系。数据集每个视频的长度为 80 帧～150 帧，每个视频的分辨率不完全相同。预赛的测试数据为 48 段视频。测试集只提供 RGB 图像序列。如呈现多集体像实例，每个人像能够任意程序标注，评测时将被独立计算。

本次较量容许参数选手应用其余公开数据集和公开模型，但参赛选手的模型必须满足能在限定工夫内复现的要求，复现精度小于规定误差。

对于算法复原的视频后果，本次较量采纳 Mean J And F 做为评估指标。J 为形容宰割人体区域精度的 Jaccard Index，F 为形容宰割人体的边界精确度。具体请参照参考文献 1。每个视频容许选手最多输入 8 个人物宰割后果，选手宰割后果与真值先进行 IOU 匹配，找到对应的人物后，依据该后果进行评分。多余的宰割后果，没有惩办。如果超过 8 个区域，整个视频后果有效。

冠军：1 支队伍，奖金 9 万人民币，颁发获奖证书

亚军：2 支队伍，奖金 3 万人民币，颁发获奖证书

季军：3 支队伍，奖金 1 万人民币，颁发获奖证书

Cooper Lake 最佳实际：3 支队伍，奖金 2 万人民币，颁发获奖证书

此外，复赛审核通过的排名前 12 队伍，可进入阿里云校招绿色通道。

视频云大赛正在炽热报名中
扫码或点击下方链接，一起驱动下一代浪潮！
https://tianchi.aliyun.com/co…

关于计算机视觉:为拿下算法-奥斯卡阿里团队设计了一个冠军方案

阿里达摩院：像素级视频宰割

根本框架

三大技术创新

1. 空间束缚

2. 加强 decoder

3. 训练策略

其余

后果

参考

“新内容新交互”寰球视频云翻新挑战赛算法挑战赛道

算法赛道形容

评估规范

奖项设置

Just My Socks（注册教程内含优惠码）

关于计算机视觉:为拿下算法-奥斯卡阿里团队设计了一个冠军方案

阿里达摩院：像素级视频宰割

根本框架

三大技术创新

1. 空间束缚

2. 加强 decoder

3. 训练策略

其余

后果

参考

“新内容 新交互”寰球视频云翻新挑战赛算法挑战赛道

算法赛道形容

评估规范

奖项设置

Just My Socks（注册教程 内含优惠码）

“新内容新交互”寰球视频云翻新挑战赛算法挑战赛道

Just My Socks（注册教程内含优惠码）