关于人工智能:ECCV2022-RU谷歌提出用CLIP进行zeroshot目标检测

【写在后面】

构建鲁棒的通用对指标测框架须要扩大到更大的标签空间和更大的训练数据集。然而，大规模获取数千个类别的标注老本过高。作者提出了一种新办法，利用最近视觉和语言模型中丰盛的语义来定位和分类未标记图像中的对象，无效地生成用于指标检测的伪标签。从通用的和类无关的区域倡议（region proposal）机制开始，作者应用视觉和语言模型将图像的每个区域分类为上游工作所需的任何对象类别。作者演示了生成的伪标签在两个特定工作中的价值：凋谢词汇检测，其中模型须要推广到看不见的对象类别；半监督对象检测，其中能够应用额定的未标记图像来改良模型。本文的实证评估显示了伪标签在这两项工作中的有效性，在这两项工作中，本文的体现优于竞争基线，并实现了凋谢词汇表指标检测的SOTA。

1. 论文和代码地址

Exploiting Unlabeled Data with Vision and Language Models for Object Detection

论文地址：https://arxiv.org/abs/2207.08954

代码地址：https://github.com/xiaofeng94/VL-PLM

2. Motivation

指标检测的最新进展建设在大规模数据集上，这些数据集为许多物体类别提供了丰盛而精确的人类标注边界框。然而，此类数据集的标注老本是微小的。此外，天然对象类别的长尾散布使得为所有类别收集足够的标注更加艰难。半监督对象检测（SSOD）和凋谢词汇表对象检测（OVD）是通过利用不同模式的未标记数据来升高标注老本的两项工作。在SSOD中，给出了一小部分齐全标注的训练图像以及大量未标注图像。在OVD中，在所有训练图像中标注一部分所需的对象类别（根本类别），工作是在测试时检测一组新的（或未知）类别。这些对象类别能够呈现在训练图像中，但不应用高空ground truth框进行标注。一种常见且胜利的办法是应用未标记的数据来生层伪标签。然而，所有先前对于SSOD的工作都只利用了一小部分标记数据来生成伪标签，而大多数先前对于OVD的工作基本没有利用伪标签。

在这项工作中，作者提出了一种简略但无效的办法，应用最近提出的视觉和语言（V\&L）模型开掘未标记图像，以生成已知和未知类别的伪标签，该办法实用于SSOD和OVD两种工作。V\&L模型能够从（有噪声的）图像字幕对中训练，无需人工标注，即可通过抓取图像及其文本的网站大规模取得。只管存在噪声标注，但这些模型在各种语义工作（如zero-shot分类或图像文本检索）上体现出了优异的性能。大量多样的图像与自在模式的文本相结合，为训练强壮的通用模型提供了弱小的信息源。这些个性使视觉和语言模型成为改良利用未标记数据（如OVD或SSOD）的现有指标检测pipeline的现实候选对象，见上图（a）。

具体来说，本文的办法利用最近提出的视觉和语言模型CLIP来生成用于对象检测的伪标签。首先应用两阶段类不可知proposal生成器预测区域倡议，该生成器应用无限的ground truth进行训练（在OVD中仅应用已知的基类别，在SSOD中仅应用标记图像），但推广到不可见类别。对于每个区域倡议，而后应用预训练的V\&L模型片段取得所需对象类别（取决于工作）的概率分布。然而，如上图（b）所示，VL模型的一个次要挑战是指标定位品质相当低。为了改良定位，作者提出了两种策略，其中两阶段proposal生成器有助于VL模型：（1）交融两阶段提案生成器的CLIP分数和对象性分数，以及（2）通过在提案生成器中反复利用定位头（第二阶段）来移除冗余提案（proposal）。最初，将生成的伪标签与原始ground truth相结合，训练最终检测器。本文的办法命名为V\&L疏导伪标签开掘（VL-PLM）。

大量试验表明，VL-PLM胜利地利用了未标记数据进行凋谢词汇检测，在COCO数据集上的新类别上优于最先进的ViLD+6.8 AP。此外，VL-PLM在SSOD中的已知类别上进步了性能，并且通过仅用本文的伪标签替换其伪标签，显著优于风行的基线STAC。此外，作者还对生成的伪标签的个性进行了各种融化钻研，并剖析本文提出的办法的设计抉择。作者还认为，VL-PLM能够通过更好的VL模型（如ALIGN或ALBEF）进一步改良。

本文的工作奉献如下：（1）作者利用V\&L模型通过在未标记数据上生成伪标签来改良指标检测框架。（2）一种简略但无效的策略，用于进步用V＆L模型CLIP评分的伪标签的定位品质。（3） COCO凋谢词汇检测设置上新类别的最新后果。（4）作者展现了VL-PLM在半监督指标检测环境中的劣势。

3. 办法

本文的指标是应用视觉和语言（V\&L）模型开掘未标记图像，以生成边界框模式的语义丰盛的伪标签（PLs），以便对象检测器可能更好地利用未标记数据。

3.1 Training object detectors with unlabeled data

对于对象检测器，未标记的数据有许多不同的模式。在半监督指标检测中，有一组带有残缺标签空间标注$\mathcal{S}$的齐全标记的图像$\mathcal{I}_{L}$，以及未标记图像$\mathcal{I}_{U}$，其中$\mathcal{I}_{L} \cap \mathcal{I}_{U}=\varnothing$。在凋谢词汇检测中，作者对带有根本类别$\mathcal{S}_{B}$集标注的图像进行了局部标记，但对未知/新鲜类别$\mathcal{S}_{N}$没有标注。

从未标记数据中学习的一种风行且胜利的办法是通过伪标签。最近的半监督指标检测办法遵循这种办法，首先在无限的Ground Truth数据上训练老师模型，而后为未标记的数据生成伪标签，最初训练学生模型。作者提出了一种用于对象检测的通用训练策略，以解决不同模式的未标记数据。

作者定义了一个对象检测器的通用损失函数，其参数$\theta$在标记图像和未标记图像上均为：

$$\mathcal{L}(\theta, \mathcal{I})=\frac{1}{N_{\mathcal{I}}} \sum_{i=1}^{N_{\mathcal{I}}}\left[I_{i} \in \mathcal{I}_{L}\right] l_{s}\left(\theta, I_{i}\right)+\alpha\left[I_{i} \in \mathcal{I}_{U}\right] l_{u}\left(\theta, I_{i}\right)$$

其中，是一个超参数，用于均衡有监督的$l_{s}$和无监督的$l_{u}$损失，$[\cdot]$是依据条件返回0或1的批示函数。再次留神，$I_{i}$能够蕴含在$\mathcal{I}_{L}$和$\mathcal{I}_{U}$中。

指标检测最终是一个集预测问题，为了定义损失函数，须要将预测集（类概率和bounding box预计）与ground truth bounding box匹配。存在不同的选项来寻找匹配，但它次要由预测和GT框之间的相似性（IoU）定义。作者将预测i的匹配定义为$\sigma(i)$，如果匹配胜利，则返回GT下标j，否则返回nil。监督损失$l_{s}$蕴含分类l的规范穿插熵损失$l_{c l s}$和回归的L1损失$l_{c l s}$。给定$I \in \mathcal{I}$，作者将$l_{s}$定义为：

$$l_{s}(\theta, I)=\frac{1}{N^{*}} \sum_{i} l_{c l s}\left(C_{i}^{\theta}(I), c_{\sigma(i)}^{*}\right)+[\sigma(i) \neq \mathrm{nil}] l_{r e g}\left(T_{i}^{\theta}(I), \mathbf{t}_{\sigma(i)}^{*}\right)$$

其中$N^{*}$是预测的边界框数。$C_{i}^{\theta}(\cdot)$和$T_{i}^{\theta}(\cdot)$是指标检测器的预测类散布和边界框。相应的（匹配的）GT定义为$c_{\sigma(i)}^{*}$ 和$t_{\sigma(i)}^{*}$。

无监督损失$l_{u}$的定义相似，但应用具备高置信度的伪标签作为监督信号：

$$\begin{aligned} l_{u}(\theta, I)=\frac{1}{N^{u}} \sum_{i}\left[\max \left(\mathbf{p}_{\sigma(i)}^{u}\right) \geq \tau\right] \cdot &\left(l_{c l s}\left(C_{i}^{\theta}(I), \hat{c}_{\sigma(i)}^{u}\right)+\right.\\ & {\left.[\sigma(i) \neq \mathrm{nil}] l_{r e g}\left(T_{i}^{\theta}(I), \mathbf{t}_{\sigma(i)}^{u}\right)\right) }\end{aligned}$$

这里，$\mathbf{p}_{\sigma(i)}^{u}$定义了与预测i匹配的伪标签在标签空间上的概率分布，$N^{u}$是采纳的伪标签的数量，即$N^{u}=\sum_{i}\left[\max \left(\mathbf{p}_{\sigma(i)}^{u}\right) \geq \tau\right]$。分类的伪标签和box回归损失别离为$\hat{c}_{\sigma(i)}^{u}=\arg \max \left(\mathbf{p}_{\sigma(i)}^{u}\right) , \mathbf{t}_{\sigma(i)}^{u}$。从未标记数据胜利训练指标检测器的要害是精确的伪标记。

3.2 VL-PLM: Pseudo labels from vision & language models

VL语言模型在大规模数据集上进行训练，图像-文本对笼罩了一组不同的图像域和天然文本中丰盛的语义。通过应用网络抓取的数据 (图像和相应的文本)，能够在没有低廉的人工正文的状况下取得图像-文本对。因而，V & L模型是为任意类别生成伪标签的现实内部常识起源，可用于上游工作，例如凋谢词汇或半监督对象检测。

上图展现了用最近的V & L模型CLIP生成伪标签的整体流水线。首先将一个未标记的图像输出两阶段类不可知检测器以取得区域倡议。而后，依据这些区域裁剪图像块，并将其输出剪辑图像编码器，以在CLIP视觉和语言空间中取得嵌入。应用相应的CLIP文本编码器和模板文本提醒，为特定工作所需的类别名称生成嵌入。对于每个区域，作者通过点积计算区域嵌入和文本嵌入之间的相似性，并应用softmax取得类别上的散布。而后，作者应用来自类不可知检测器和V\&L模型的分数生成最终的伪标签。

本文的框架面临两个要害挑战 :( 1) 为凋谢词汇检测所需的新类别生成牢靠的倡议（proposal），以及 (2) 克服原始CLIP模型的定位品质较差的特点。作者提出了简略但无效的解决方案，以解决以下两个挑战：

生成持重的和类无关的区域倡议：为了利用未标记数据进行开放式词汇检测等工作，倡议生成器不仅应该可能定位训练期间看到的类别对象，还应该可能定位新类别的对象。尽管存在像选择性搜寻这样的无监督候选者，但这些候选者通常很耗时，并且会产生许多噪声框。正如先前钻研中所倡议的那样，两级检测器的区域倡议网络（RPN）对于新类别具备良好的泛化能力。此外，作者发现RoI头可能改良区域倡议的定位。因而，作者训练了一个规范的两阶段检测器，例如Faster R-CNN，作为本文的倡议生成器，应用可用的GT值，即凋谢词汇检测的根本类别标注和半监督检测中正文图像的小局部标注。为了进一步提高泛化能力，作者疏忽了训练集的类别信息，训练了一个类无关的倡议生成器。

应用V\&L模型生成伪标签：在裁剪区域倡议上间接利用CLIP会产生较低的定位品质。在这里，作者演示了如何通过两种形式应用本文的两阶段类不可知倡议生成器来进步定位能力。首先，作者发现RPN分数是掂量区域倡议定位品质的一个良好指标。作者利用这一察看后果，并将RPN分数与CLIP预测值进行均匀。其次，作者去除倡议生成器的阈值和NMS，并将倡议框屡次馈送到RoI头。作者察看到，通过反复RoI头将冗余框推近彼此。这样，能够产生地位更好的边界框，并提供更好的伪标签。

为了进一步提高伪标签的品质，作者采纳了从CLIP中嵌入的多尺度区域。此外，作者采纳高阈值来选取高置信度的伪标签。区域$R_{i}$的伪标签的置信度示意为$\bar{c}_{i}^{u}=\left[s_{i}^{u} \geq \tau\right] \cdot s_{i}^{u}$：

$$s_{i}^{u}=\frac{S_{R P N}\left(R_{i}\right)+\max \left(\mathbf{p}_{i}^{u}\right)}{2}$$

其中$S_{R P N}(\cdot)$示意RPN分数。预测概率分布$\mathbf{p}_{i}^{u}$定义为：

$$\mathbf{p}_{i}^{u}=\operatorname{softmax}\left\{\phi\left(E_{\mathrm{im}}\left(R_{i}\right)+E_{\mathrm{im}}\left(R_{i}^{1.5 \times}\right)\right) \cdot E_{\mathrm{txt}}(\text { Categories })^{T}\right\}$$

这里，$R_{i}^{1.5 \times}$是被$R_{i}$大小$1.5 \times$裁剪的区域。$E_{\mathrm{im}}$和$E_{\mathrm{txt}}$别离是CLIP的图像和文本编码器，$ \phi(\mathbf{x})=\mathbf{x} /\|\mathbf{x}\| $。如果$\bar{c}_{i}^{u}=0$，则从伪标签中排除$R_{i}$。

3.3 Using our pseudo labels for downstream tasks

最初，简要形容如何将未标记数据生成的伪标签用于本工作中关注的两个特定上游工作。

凋谢词汇检测：在这个工作中，检测器能够拜访带有根本类别标注的图像，并且须要推广到新类别。在上述伪标签生成过程中，作者利用根本类别的数据来训练类不可知Mask R-CNN作为咱们的倡议生成器，并将新类别的名称作为CLIP文本编码器的输出文本。而后，作者用RestNet50 FPN训练了一个规范Mask R-CNN，该模型同时具备GT值和新的伪标签。

半监督指标检测：在该工作中，相干办法通常应用无限的标记图像集中的GT值来训练老师模型，而后与老师一起在未标记图像上生成伪标签。作者生成了这些伪标签，并将其与VL-PLM中的伪标签合并。因而，学生模型是在咱们基于VL的办法和老师模型中可用的GT和伪标签上训练的。

4.试验

如上表所示，用VLPLM训练的检测器显著优于现有最先进的ViLD近+7%。

作者在三个没见过的数据集上评估了COCO训练模型：VOC 2007、Object365和LVIS。VL-PLM具备类似的迭代次数和较小的batch，其性能有显著劣势。

上表展现了本文办法在半监督指标检测上的试验后果。

为了展现RPN和RoI头如何帮忙PLs，作者在上图中评估了不同设置下PLs的品质。

上表展现了伪标签品质和凋谢域指标检测的性能关系。

上表展现了不同region proposal办法生成的伪标签的品质后果。

5. 总结

本文演示了如何利用预训练的V\&L模型开掘不同指标检测工作（例如OVD和SSOD）的未标记数据。作者提出了一个简略而无效的V\&L模型疏导的伪标签开掘框架（VL-PLM），该框架可能为特定于工作的标签空间生成伪标签。本文的试验表明，应用PLs训练规范检测器为COCO上的OVD设置了一个新的最先进程度。此外，本文的PLs能够使SSOD模型受害，尤其是在ground truth标签数量无限的状况下。

已建设深度学习公众号——FightingCV，欢送大家关注！！！

ICCV、CVPR、NeurIPS、ICML论文解析汇总：https://github.com/xmu-xiaoma...

面向小白的Attention、重参数、MLP、卷积外围代码学习：https://github.com/xmu-xiaoma...

退出交换群，请增加小助手wx：FightngCV666

本文由mdnice多平台公布