关于人工智能:NeurIPS-2021-物体检测与分割的零标签视觉学习

(转载自微软研究院 AI 头条)

编者按：随着自监督学习的钻研逐渐深刻，迁徙学习的范式曾经广泛应用于视觉学习的各个领域，大量的视觉工作都通过应用自监督预训练和有监督微调的形式来部署工作。而微软亚洲研究院的研究员们心愿突破这一范式，在 NeurIPS 2021 发表的论文中，研究员们提出了一个能够从无标签视频中学习物体检测和宰割的模型，使得自监督预训练模型能够间接服务于利用，而不须要任何有监督微调，实现了零标签的学习。

比照学习是以后训练视觉自监督模型中的支流办法。其核心思想是将训练数据集中的每一个独立样本视为一个类别，设计预训练的工作为独立个体的辨认。因为每个类别只有一个样本，个体辨认会非常简单。研究者们通常会利用数据加强技术为每个样本发明丰盛的类内样本。对于图片来说，数据加强大抵包含：图片的平移、缩放、翻转、色彩对比度和色泽的变动、含糊以及灰度变换等等。这些图像增强技术尽管扭转了图像的细节，然而却没有扭转图片形容的语义内容。实际上，比照学习是在学习对于这些加强变换具备不变性的特色示意。从试验中能够察看到，比照学习对数据加强的依赖是十分显著的。

图 1：比照学习强烈依赖于底层的图像增强技术从而学习不变性。罕用的图像增强技术包含平移、缩放、色彩加强、部分含糊等。

作为一种预训练的办法，比照学习只是学习到了一种特色示意，然而这种特色示意须要一些（大量的）有监督的上游数据做微调训练之后，才能够利用于上游工作。预训练的表征尽管能够大幅度晋升上游工作的微调性能，但依赖于微调的个性却成为了自监督模型自身的缺点和短板。

图 2：迁徙学习的框架：通用预训练 + 特定工作的微调。自监督学习成为了弱小的预训练方法，然而其必须利用上游工作的大量监督数据才能够服务于利用。

基于针对比照学习缺点的剖析和了解，微软亚洲研究院的研究员们心愿设计一种不须要微调就能够间接利用到上游工作的自监督模型。为了达成这个目标，研究员们开始从视频中寻找有用的信息。区别于计算机学习图片辨认工作，人类是从一个间断变换的时序信号中实现学习的。一个时序的视频信号蕴含了很多图片中不可能存在的有用信息。比方，视频能够形容一个物体的静止（motion）以及它的状态变动（deformation）；然而，对于动态图片数据集，一个物体很难在数据集中被屡次捕捉到。再如，通过几何学的办法，研究员们能够从视频中重建一个物体的三维状态，但这也很难从动态图片中复原。因而，研究员们心愿能够从视频中剖析物体的静止状态，借助其静止状态帮忙检测物体的存在，并宰割出物体的形状。

首先，研究员们须要从视频中寻找到适合的收费监督信息来学习物体的检测和宰割。视频中罕用到的一个学习指标就是视图合成工作。具体来说，给定一个视频的两帧图片，一帧初始图片，一帧指标图片，视图合成工作会尝试学习一个扭曲函数（warping function），用来建模从初始帧到指标帧的像素重建过程。这个看似简略的工作有着丰盛的利用场景。例如，若用像素点对点的对应关系来示意这个扭曲函数，那么视觉合成工作就能够实现自监督的光流（optical flow）学习。再如，若能够取得相机的参数，视觉合成工作可用来实现自监督单通道深度（depth）的预计。实现不同自监督工作的要害是：找到一个适合的示意办法（representation），使其既可能实现视图合成工作，同时又能实现所关怀的利用工作，比方光流和深度的预计。再举一个例子，先前的工作为了实现双目图像的平面加强（stereo magnification），设计了新的多平面图（multi-plane images）示意办法。

图 3：视图合成工作能够驱使一种新的多平面图示意，这种新的示意能够帮忙生成大 baseline 状况下的视图。图片摘自论文“Stereo Magnification: Learning View Synthesis using Multiplane Images”。

研究员们寄希望于利用视图合成工作来实现物体的检测和宰割，这与先前工作最大的不同是试图提取和学习图片中层甚至高层的示意，而并非仅停留在学习图像的一些低层示意。出于此目标，研究员们设计了一种 新的示意和模型 AMD（Appearance-Motion Decomposition），用来实现零标签的物体宰割。

相干论文“The Emergence of Objectness: Learning Zero-Shot Segmentation from Videos”已被 NeurIPS 2021 接管。

论文链接：
https://papers.nips.cc/paper/…

图 4 展现了 AMD 模型的根本构架。模型次要由两个构架网络组成：形状网络（appearance pathway）和静止网络（motion pathway）。给定一帧的输出 frame i，形状网络会将其宰割成为若干个区域，在此例子中为 3 个。给定间断两帧的输出 frame i 和 frame j，静止网络则会首先抽取出形容空间对应关系的静止特色，接着为形状网络预测的每个区域估计一个整体的光流（flow offset）。

图 4：AMD 模型的根本构架。下分支为预测宰割的形状网络，上分枝为预测宰割流的静止网络。整个模型应用视图合成工作做为训练指标。

在这里，研究员们利用 gestalt principle common fate 的假设，认为每个区域外部共享一个独自的光流。这种假设对于一些刚性物体的静止是不错的预计，但对于简单形变的物体，这种假设是不成立的。依据预测的每个区域以及相应区域的光流值，研究员们重构了一个光流图。因为这个光流受限于宰割的后果，只有很低的自由度，因而称之为宰割流（segment flow）。失去这个宰割流之后，就能够将 frame i warp 到 frame j 这一帧上。重建的 frame j 能够和理论观测做比照，监督整个网络的学习。

AMD 模型将一个视频的形状（appearance）信息和静止（motion）信息解耦开（decomposition），从而实现了对图像宰割零标签的利用。在实现上，形状网络应用传统的 ResNet50 构造，静止网络应用常见的 PWC-Net, 两个网络均从零训练，未退出任何的预训练初始化。预训练实现后，形状分支能够间接利用在全新的图片上实现图像宰割，而 不须要任何微调 。值得注意的是， 训练 AMD 模型并不需要退出大量的图像增强技术 。这在肯定水平上 缓解了对于比照学习的依赖。

图 5：光流和宰割流的比照。光流以单个像素为根本单元形容物体的静止，宰割流以部分的区域为根本单元形容静止。能够看出，因为其准确的形容，光流在工夫上的变化很大，很难精确的宰割物体。研究员们的宰割流只管就义了静止的准确性，却取得了对于物体构造的认知。

无需任何微调，研究员们的 AMD 模型便能够利用在图片宰割和视频静止物体等宰割工作上。对于图像宰割，研究员们只需迁徙图形网络分支即可。在一个显著性检测（saliency detection）的数据集 DUTS 上测试时，图 6 展现了宰割成果。由此可见，研究员们的预训练模型不仅能够检测和宰割“可挪动的物体”，还能够泛化到宰割一些动态物体上，例如：雕塑、盘子、长椅、树木等等。

图 6：显著性检测在 DUTS 上的测试成果

对于宰割视频中的静止物体，则须要迁徙 AMD 模型的全副两个分支。针对一个测试视频，为了利用静止信息，研究员们应用了测试阶段优化的技巧（test time adaptation）。具体而言，研究员们同样应用视图合成这个自监督工作对测试视频进行优化，并将 AMD 模型在三个数据测试集上进行了测试（模型从未见过这些数据集的训练集）。钻研结果显示，AMD 模型在其中两个数据集上都大幅度超过了已有的办法。图 7 展现了具体的性能和可视化的后果。

图 7：视频中的静止物体宰割，上图为可视化的比照，下表为数值上的比照。

本篇论文的钻研试图提出和设计一种零标签的自监督学习模型。该模型不须要任何微调就能够应用在一些利用场景中。这项钻研工作解耦了视频中的形状和静止表征，使其可能宰割和检测物体。研究员们也心愿这项钻研工作能够启发更多零标签学习的相干工作。

参考文献

Tinghui Zhou, Richard Tucker, John Flynn, Graham Fyffe, and Noah Snavely. Stereo magnifi- cation: Learning view synthesis using multiplane images. arXiv preprint arXiv:1805.09817, 2018.
Clément Godard, Oisin Mac Aodha, Michael Firman, and Gabriel J Brostow. Digging into self-supervised monocular depth estimation. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 3828–3838, 2019.
Zhirong Wu, Yuanjun Xiong, Stella X Yu, and Dahua Lin. Unsupervised feature learning via non-parametric instance discrimination. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 3733–3742, 2018.
Deqing Sun, Xiaodong Yang, Ming-Yu Liu, and Jan Kautz. Pwc-net: Cnns for optical flow using pyramid, warping, and cost volume. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 8934–8943, 2018.

欢送关注微软中国 MSDN 订阅号，获取更多最新公布！

关于人工智能:NeurIPS-2021-物体检测与分割的零标签视觉学习

从视频中学习物体检测和宰割

视图合成工作（View Synthesis）

宰割流以及 AMD 模型

上游利用与试验后果

总结

Just My Socks（注册教程内含优惠码）

关于人工智能:NeurIPS-2021-物体检测与分割的零标签视觉学习

从视频中学习物体检测和宰割

视图合成工作（View Synthesis）

宰割流以及 AMD 模型

上游利用与试验后果

总结

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）