共计 7644 个字符,预计需要花费 20 分钟才能阅读完成。
ECCV2022 Oral | MaskCLIP
【写在后面】
比照语言图像预训练(CLIP)在凋谢词汇零样本图像识别方面获得了显着冲破。许多最近的钻研利用预训练的 CLIP 模型进行图像级分类和操作。在本文中,作者心愿测验 CLIP 在像素级密集预测方面的外在后劲,特地是在语义宰割方面。为此,作者通过起码的批改展现了 MaskCLIP 在没有正文和微调的状况下,在跨各种数据集的凋谢概念上产生了令人信服的宰割后果。通过增加伪标签和自训练,MaskCLIP+ 大大超过了 SOTA 转导零样本语义宰割办法,例如,PASCAL VOC/PASCAL Context/COCO Stuff 上未见类的 mIoU 从 35.6/20.7/30.3 进步到 86.1/66.7 /54.7。作者还测试了 MaskCLIP 在输出损坏下的鲁棒性,并评估了它在辨别细粒度对象和新概念方面的能力。本文的发现表明,MaskCLIP 能够作为密集预测工作的新牢靠监督起源,以实现无正文宰割。
1. 论文和代码地址
Extract Free Dense Labels from CLIP
论文地址:https://arxiv.org/abs/2112.01071
代码地址:https://github.com/chongzhou96/MaskCLIP
2. 动机
诸如 CLIP 之类的大规模视觉语言预训练模型捕捉富裕表现力的视觉和语言特色。各种上游视觉工作,例如文本驱动的图像处理、图像字幕、视图合成和对象检测,都试图利用这些特色来进步通用性和鲁棒性。例如,基于原始 CLIP 特色进行零样本图像分类会导致一种与齐全监督对应物的性能相匹配的竞争办法。
在本文中,作者进一步摸索了 CLIP 特色在语义宰割等像素级密集预测工作中的适用性。这项考察是有意义的,因为以前的钻研次要利用 CLIP 特色作为全局图像示意。相比之下,本文的摸索心愿确定 CLIP 特色在封装对象级和部分语义以进行密集预测的水平 。与对标志性图像进行图像分类的传统预训练任务不同,CLIP 从简单场景的图像及其自然语言形容中学习,这(1) 激励它将部分图像语义嵌入其特色中 ,(2) 使其可能学习凋谢词汇表中的概念 ,以及(3) 捕捉丰盛的上下文信息,例如某些对象的共现 / 关系和空间地位的先验。作者置信所有这些长处都极大地促成了其在密集预测工作中的后劲。
在本文中,总结了利用 CLIP 特色进行密集预测的胜利和失败教训。作者发现不毁坏原始 CLIP 特色空间中的视觉语言关联至关重要。在本文晚期的摸索中,作者在尝试微调 CLIP 的图像编码器以进行宰割工作时遇到了失败,例如,应用 CLIP 的图像编码器的权重初始化 DeepLab 并微调宰割的骨干。此外,作者发现防止任何不必要的尝试操纵 CLIP 的文本嵌入是至关重要的。这种办法在宰割看不见的类时会失败。
在名为 MaskCLIP 的胜利模型中,作者展现了能够简略地从 CLIP 的图像编码器中提取密集的 patch 级特色,即最初一个留神层的值特色,而不会毁坏视觉语言关联。密集预测的分类权重,实质上是 1×1 卷积,能够间接从 CLIP 文本编码器的文本嵌入中取得,无需任何刻意的映射。在实证钻研中,MaskCLIP 在通过 mIoU 度量和定性后果测量的定量性能方面产生了正当的预测。此外,MaskCLIP 能够基于 CLIP 的所有变体,包含 ResNets 和 ViTs。作者提供了两个风行的骨干网络之间的并排比拟。作者还为 MaskCLIP 提出了两种掩码细化技术以进一步提高其性能,即 key smoothing 和prompt denoising,两者都不须要训练。具体来说,键平滑(key smoothing)计算不同块的键特色(最初一个留神层)之间的相似性,用于平滑预测。提醒去噪(prompt denoising)去除了图像中不太可能存在的类别的提醒,因而烦扰更少,预测变得更精确。
然而,MaskCLIP 的宰割能力很难进一步提高,因为它的架构仅限于 CLIP 的图像编码器。为了从架构束缚中放松 MaskCLIP 并联合更高级的架构,例如 PSPNet 和 DeepLab,作者留神到,能够在训练时部署它,而不是在推理时部署 MaskCLIP,它用作提供高质量伪标签的通用且持重的正文器。与规范的自训练策略一起生成的模型,称为 MaskCLIP+,实现了惊人的性能。
除了无正文和凋谢词汇宰割之外,MaskCLIP+ 还能够利用于零样本语义宰割工作,其中 MaskCLIP 只为看不见的类生成伪标签。在三个规范宰割基准上,即 PASCAL VOC、PASCAL Context 和 COCO Stuff,MaskCLIP+ 在未见类的 mIoU 方面将最先进的后果进步了 50.5%,46% 和 24.4%(35.6 → 86.1、20.7 → 66.7 和 30.3 → 54.7)。因为 CLIP 特色的通用性和鲁棒性,MaskCLIP+ 能够很容易地利用于语义宰割的各种扩大设置,包含细粒度类(例如,红色汽车和红色巴士等属性条件类)或新概念(例如蝙蝠侠和小丑如上图所示),以及中度损坏输出的宰割。
语义宰割因其对标记训练数据的高度依赖而被限度。曾经摸索了许多办法来绕过这种严格的要求,例如,通过应用图像标签、边界框和涂鸦等弱标签。本文的钻研首次表明,通过大规模视觉语言预训练学习的特色能够很容易地用于促成凋谢词汇密集预测。所提出的模型 MaskCLIP 在为训练现有办法提供丰盛且有意义的密集伪标签方面显示出微小的后劲。
3. 办法
本文的钻研是摸索 CLIP 特色对像素级密集预测工作的适用性的晚期尝试。作者首先简要介绍 CLIP 和一个简略的解决方案作为初步,而后具体介绍提议的 MaskCLIP。
3.1 Preliminary on CLIP
CLIP 是一种视觉语言预训练方法,它从大规模的原始网络策动的图像 - 文本对中学习视觉和语言示意。它由一个图像编码器 $\mathcal{V}(\cdot)$ 和一个文本编码器 $\mathcal{T}(\cdot)$ 组成,两者联结训练以别离将输出图像和文本映射到一个对立的示意空间中。CLIP 采纳比照学习作为其训练指标,将 ground-truth 图文对视为正样本,将不匹配的图文对结构为负样本。在实践中,文本编码器被实现为 Transformer。至于图像编码器,CLIP 提供了两种代替实现,即 Transformer 和具备全局注意力池化层的 ResNet。本文的办法能够基于两种编码器架构。
作者认为 CLIP 在学习将图像内容与自然语言形容相关联时,在其特色中固有地嵌入了部分图像语义,后者蕴含跨多个粒度的简单而密集的语义领导。例如,为了正确辨认图像对应于当裁判看着时击球手筹备挥杆的形容,CLIP 必须将图像语义划分为部分片段,并将图像语义与单个提到的概念(如人)正确对齐, bat, swing, patch, man at bat, man at patch 和 man ready to swing,而不是将图像作为一个整体来解决。这种独特性在仅应用图像标签的训练中是不存在的。
3.2 Conventional Fine-Tuning Hinders Zero-Shot Ability
以后训练宰割网络的理论管道是(1)应用 ImageNet 预训练的权重初始化骨干网络,(2)增加具备随机初始化权重的特定于宰割的网络模块,以及(3)联结微调调整骨干和新增加的模块。
遵循这些规范步骤来调整 CLIP 进行宰割是很天然的。在这里,作者通过在 DeepLab 上利用这个管道和两个特定于 CLIP 的批改来开始本文的摸索。具体来说,作者首先将 ImageNet 预训练的权重替换为 CLIP 图像编码器的权重。其次,采纳映射器 M 将 CLIP 的文本嵌入映射到 DeepLab 分类器(最初一个 1×1 卷积层)的权重。批改后的模型能够表述如下:
$$
\begin{aligned} \operatorname{DeepLab}(x) &=\mathcal{C}_{\phi}\left(\mathcal{H}\left(\mathcal{V}_{* l}(x)\right)\right), \\ \phi &=\mathcal{M}(t), \end{aligned}
$$
其中 $\mathcal{V}_{* l}(\cdot)$ 示意 DeepLab 骨干,它是一个扩充了 l 倍的 ResNet。$ H(·) $ 示意随机初始化的 ASPP 模块,$\mathcal{C}_{\phi}(\cdot)$ 是 DeepLab 分类器,其权重记为 $\phi$,由 CLIP 的文本嵌入通过映射器 M 确定。现实状况下,通过更新分类器权重与相应的文本嵌入,适应的 DeepLab 可能在不从新训练的状况下宰割不同的类。
为了评估这个批改后的 DeepLab 在可见和不可见类上的宰割性能,作者在数据集中的一个类子集上对其进行训练,将其余类视为不可见类。作者曾经尝试了一系列映射器架构。只管它们在可见类上体现良好,但在所有这些状况下,批改后的 DeepLab 都未能以令人满意的性能宰割不可见的类。
作者假如这次要是因为 CLIP 特色的原始视觉语言关联已被突破:(1)骨干在网络架构方面与图像编码器略有不同 ;(2) 从图像编码器初始化的权重在微调期间曾经更新;(3) 引入了一个额定的映射器,它仅在所见类的数据上进行训练,因而导致通用性有余。
3.3 MaskCLIP
微调尝试失败,作者转向防止引入额定参数和批改 CLIP 特色空间的解决方案。为此,从新扫视了 CLIP 的图像编码器,尤其是其独特的全局注意力池化层。如上图(b) 所示,与传统的全局均匀池化不同,CLIP 的图像编码器采纳 Transformer 式的多头注意力层,其中全局均匀池化的特色作为查问,每个空间地位的特色生成一个 key-value 对。因而,该层的输入是输出特色图的空间加权和,而后是线性层 $F(·)$:
$$
\begin{aligned} \operatorname{AttnPool}(\bar{q}, k, v) &=\mathcal{F}\left(\sum_{i} \operatorname{softmax}\left(\frac{\bar{q} k_{i}^{\top}}{C}\right) v_{i}\right) \\ &=\sum_{i} \operatorname{softmax}\left(\frac{\bar{q} k_{i}^{\top}}{C}\right) \mathcal{F}\left(v_{i}\right), \\ \bar{q}=\operatorname{Emb}_{\mathrm{q}}(\bar{x}), k_{i} &=\operatorname{Emb}_{\mathrm{k}}\left(x_{i}\right), v_{i}=\operatorname{Emb}_{\mathrm{v}}\left(x_{i}\right), \end{aligned}
$$
其中 C 是一个常数比例因子,而 Emb(·) 示意一个线性嵌入层。$x_{i}$ 示意空间地位 i 的输出特色,$\bar{x}$ 是所有 $x_{i}$ 的平均值。Transformer 层的输入作为整个图像的综合示意。作者认为这是可能的,因为在每个空间地位计算的 $\mathcal{F}\left(v_{i}\right)$ 曾经捕捉了丰盛的部分语义响应,这些响应与 CLIP 文本嵌入中的标记很好地对应。
基于这样的假如,如上图 (b) 所示,作者在新尝试中间接批改 CLIP 的图像编码器:(1) 删除查问和要害嵌入层 ;(2) 将值嵌入层和最初一个线性层重新组合成两个各自的 1×1 卷积层。此外,放弃文本编码器不变,它以指标类的提醒作为输出。每个类的后果文本嵌入用作分类器。作者将生成的模型命名为 MaskCLIP,因为它产生像素级掩码预测,而不是全局图像级预测。而后,作者在各种规范宰割基准以及网络爬取图像上评估 MaskCLIP。MaskCLIP 无需任何微调或正文即可输入正当的后果。更多对于 mIoU 指标的定性后果和定量后果蕴含在试验局部。
有人可能会辩论说,因为全局注意力池是一个自注意力层,即便没有批改,它也能够生成密集的特色。然而,因为查问 $\bar{q}$ 是在 CLIP 预训练期间训练的惟一查问,因而这种奢侈的解决方案失败了。作者将此解决方案视为基线,并在试验中将其后果与本文的后果进行比拟。此外,ViT 中的 Transformer 层与全局注意力池十分类似。实际上,仅有的两个区别是:(1)全局查问是由一个非凡的 [CLS] token 生成的,而不是所有空间地位的平均值;(2) Transformer 层有残差连贯。因而,通过用 $q[\mathrm{cls}]$ 替换 $\bar{q}$ 并将输出 x 增加到输入中,MaskCLIP 能够与 ViT 骨干一起工作。
只管与现有宰割办法相比,MaskCLIP 很简略,但所提出的办法具备继承自 CLIP 的多个独特长处。首先,MaskCLIP 可用作自在宰割标注器 ,为应用无限标签的宰割办法提供丰盛而新鲜的监督信号。其次, 因为在 MaskCLIP 中保留了 CLIP 的视觉语言关联,它天然具备宰割凋谢词汇类的能力 ,以及由自在模式的短语形容的细粒度类,如白车和红巴士。第三, 因为 CLIP 是在原始网络策动图像上训练的,因而 CLIP 对天然散布偏移和输出损坏体现出极大的鲁棒性。作者验证 MaskCLIP 在肯定水平上保留了这种鲁棒性。
为了进一步提高 MaskCLIP 的性能,作者提出了两种细化策略,即 键平滑 和prompt 去噪。除了 $\bar{q}$,要害特色 $k_i$ 也在 CLIP 预训练期间失去训练。然而,在原始的 MaskCLIP 中,$k_i$ 是简略地抛弃。因而,作者在这里寻求利用这些信息来改良最终输入。键特色能够看作是对应 patch 的描述符,因而具备类似键特色的 patch 应该产生类似的预测。有了这个假如,作者提出通过以下形式平滑预测:
$$
\operatorname{pred}_{i}=\sum_{j} \cos \left(\frac{k_{i}}{\left\|k_{i}\right\|_{2}}, \frac{k_{j}}{\left\|k_{j}\right\|_{2}}\right) \operatorname{pred}_{i}
$$
此外,作者还察看到,在解决许多指标类别时,因为只有一小部分类别呈现在单个图像中,其余类别实际上是烦扰因素并毁坏了性能。因而,作者提出了提醒去噪,如果它在所有空间地位的类置信度都小于阈值 t = 0.5,则删除带有指标类的提醒。
3.4 MaskCLIP+
尽管 MaskCLIP 不须要任何训练,但它的网络架构是刚性的,因为它采纳了 CLIP 的图像编码器。为了从这种束缚中放松它并受害于为宰割量身定制的更先进的架构,例如 DeepLab 和 PSPNet,作者提出了 MaskCLIP+。MaskCLIP+ 不是间接利用 MaskCLIP 进行测试工夫预测,而是将其预测视为训练工夫伪实在标签。联合采纳的自训练策略,MaskCLIP+ 不受其骨干架构的限度。如上图 (a) 所示,作者将 DeepLabv2 作为 MaskCLIP+ 的骨干,以确保与以前的宰割办法进行偏心比拟。
在 MaskCLIP+ 中,作者利用 MaskCLIP 的预测来领导另一个指标网络的训练,该指标网络蕴含为宰割任务量身定制的架构。与指标网络并行,作者将雷同的预处理图像输出提供给 MaskCLIP,并应用 MaskCLIP 的预测作为伪实在标签来训练指标网络。此外,作者将指标网络的分类器替换为 MaskCLIP 的分类器,以保留网络对凋谢词汇预测的能力。
MaskCLIP 疏导学习也实用于零样本宰割设置。具体来说,尽管察看到可见和不可见类的像素,但只有可见类的正文可用。在这种状况下,只应用 MaskCLIP 为未标记的像素生成伪标签。与 SOTA 办法相比,MaskCLIP+ 在三个规范基准(即 PASCAL VOC 2012、PASCAL Context 和 COCO Stuff)中取得了显着更好的后果,其中 MaskCLIP+ 的后果甚至与齐全 - 监督基线。
作者留神到一些相干的尝试,针对指标检测,在 CLIP 的图像级视觉特色和指标模型的特色之间进行常识蒸馏。与这样的特色级领导不同,作者在本文中采纳伪标签。这是因为本文的指标网络具备分段定制的架构,在结构上与 CLIP 的图像编码器不同。因而,通过特色匹配进行蒸馏可能是一种次优策略。事实上,在零样本设置下,这种特色级领导的确会导致可见类和不可见类的性能之间存在抵触。相同,通过在 MaskCLIP+ 中采纳伪标签,作者没有察看到所见类的任何性能降落。
4. 试验
上表展现了无标注宰割的试验后果。
PASCAL 上的定性试验后果。
网络图片上的定性后果。
零样本宰割性能。
MaskCLIP+ 的融化。
5. 总结
本文介绍了作者在语义宰割中利用 CLIP 的摸索,作为钻研预训练视觉语言模型在像素级密集预测工作中的适用性的晚期尝试。尽管传统的微调范式无奈从 CLIP 中受害,但作者发现 CLIP 的图像编码器曾经具备间接作为宰割模型工作的能力。由此产生的模型,称为 MaskCLIP,能够很容易地部署在各种语义宰割设置上,而无需从新训练。在 MaskCLIP 的胜利之上,作者进一步提出了 MaskCLIP+,它利用 MaskCLIP 为未标记的像素提供训练工夫伪标签,因而能够利用于更多的宰割定制架构,而不仅仅是 CLIP 的图像编码器。在规范的换能零样本宰割基准上,MaskCLIP+ 显着改良了之前的 SOTA 后果。更重要的是,MaskCLIP+ 能够很容易地用于宰割更具挑战性的看不见的类别,例如名人和动画角色。
【技术交换】
已建设深度学习公众号——FightingCV,关注于最新论文解读、基础知识坚固、学术科研交换,欢送大家关注!!!
请关注 FightingCV 公众号,并后盾回复 ECCV2022 即可取得 ECCV 中稿论文汇总列表。
举荐退出 FightingCV交换群 ,每日会发送论文解析、算法和代码的干货分享,进行学术交流,加群请增加小助手 wx:FightngCV666,备注: 地区 - 学校(公司)- 名称
面向小白的顶会论文外围代码库:https://github.com/xmu-xiaoma666/External-Attention-pytorch
面向小白的 YOLO 指标检测库:https://github.com/iscyy/yoloair
面向小白的顶刊顶会的论文解析:https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading
【赠书流动】
为感激各位老粉和新粉的反对,FightingCV 公众号 将在 9 月 10 日包邮送出 4 本 《深度学习与指标检测:工具、原理与算法》 来帮忙大家学习,赠书对象为当日浏览榜和分享榜前两名。想要参加赠书流动的敌人,请增加小助手微信FightngCV666(备注“城市 - 方向 -ID”),不便分割取得邮寄地址。
本文由 mdnice 多平台公布