共计 2730 个字符,预计需要花费 7 分钟才能阅读完成。
自监督 ResNets 是否在 ImageNet 上没有标签的状况下超过监督学习?
在本文中将介绍最近一篇推动自监督学习状态向前倒退的论文,该论文由 DeepMind 发表,绰号为 ReLICv2。
Tomasev 等人的论文“Pushing the limits of self-supervised ResNets: Can we outperform supervised learning without labels on ImageNet?”。提出了对 ReLIC 论文的技术的改良,该论文名为“Representation learning via invariant causal mechanisms”。他们办法的外围是减少了 Kullback-Leibler-Divergence 损失,这是应用经典比照学习指标的概率公式计算的。除此以外还引入了一种新鲜的加强计划,并借鉴了其余相干论文的教训。
本文尽量放弃简略,以便即便是没有先验常识的读者也能够跟进。
计算机视觉的自监督和无监督预训练
在深入研究论文之前,有必要疾速回顾一下自监督预训练的全部内容。如果你对自监督学习有所理解,或者相熟自监督预训练,能够跳过这一部分。
个别状况下计算机视觉模型始终应用监督学习进行训练。这意味着人类查看图像并为它们创立各种标签,模型能够学习这些标签的模式。例如,人工正文者会为图像调配类标签或在图像中的对象四周绘制边界框。但任何接触过标签工作的人都晓得,创立足够的训练数据集的工作量很大。
相比之下,自监督学习不须要任何人工创立的标签,模型本人监督本人学习。在计算机视觉中,对这种自监督进行建模的最常见办法是对图像进行不同的裁剪或对其利用不同的加强,并将批改后的输出传递给模型。这样能够即便图像蕴含雷同的视觉信息但看起来不一样,也就是说让模型晓得这些图像依然蕴含雷同的视觉信息,即雷同的对象,这样能够让模型学习雷同对象的类似潜在示意(输入向量)。
而后能够在这个预训练模型上进行迁徙学习。这些模型会在 10% 的带有标签的数据上进行训练,以执行指标检测和语义宰割等上游工作。
论文的奉献
正如许多其余自监督预训练技术的状况一样,ReLICv2 训练过程的第一步也是对于数据加强。在论文中,作者首先提到了应用以前胜利的加强计划。
第一个是 SwAV 中应用的加强。与之前的工作相同,SwAV 不仅创立了两种不同的输出图像裁剪,而且最多能够裁剪 6 次。这些能够制作成不同的尺寸,例如 224×244 和 96×96,最胜利的数量是两个大尺寸和 6 个小尺寸。如果想理解更多无关 SwAV 加强计划的信息,请浏览原论文。
先前形容的第二组加强来自 SimCLR。这个计划当初简直被这个畛域的所有论文应用。通过利用随机程度翻转、色彩失真、高斯含糊和适度曝光来解决图像。如果您想理解无关 SimCLR 的更多信息,请浏览原论文。
然而 ReLICv2 还提供了一种新鲜的加强技术:从图像中的对象中移除背景。为了实现这一点,他们以无监督的形式在一些 ImageNet 数据上训练一个背景去除模型。作者发现这种加强在以 10% 的概率利用时最无效。
一旦图像被加强并进行了屡次裁剪,输入将通过编码器网络和指标网络。当编码器网络应用反向流传进行更新时,指标网络通过相似于 MoCo 框架的动量计算接管更新。
ReLICv2 的总体目标是学习编码器,以便为雷同的类生成统一的输入向量。作者制订了一种新鲜的损失函数。它们从规范的比照负对数似然开始,其外围具备相似性函数,将锚图像(次要输出图像)与正例(图像的加强版本)和负例(同一图像中的其余图像)进行比拟。
ReLICv2 损失函数由负对数似然和锚视图和正视图的 Kullback-Leibler 散度组成。
这种损失通过比照指标的概率公式失去扩大:锚图像的可能性与正图像的可能性之间的 Kullback-Leibler 散度。这迫使网络学习类似的图像不要靠得太近,不类似图像能够离得远一些,防止产生可能导致学习解体的极其聚类,并在集群之间创立更均衡散布。所以这个额定的损失项能够看作相似于一个自监督的模式。对于这个损失函数蕴含了 alpha 和 beta 两个超参数,别离能够对两个损失项进行独自加权。
所有这些的办法的退出被证实是胜利的,让咱们认真看看论文中提出的后果。
后果展现
正如论文题目所述,ReLICv2 试图证实的要点是,自监督预训练方法只有在编码器网络都应用雷同的网络架构时才具备可比性。对于他们的工作,抉择应用经典的 ResNet-50。
在 ImageNet 下应用不同预训练 ResNet-50 的后果。
当应用雷同的 ResNet-50 并在 ImageNet-1K 上训练其线性层同时解冻所有其余权重时,ReLICv2 比现有办法有相当大的劣势。与原始 ReLIC 论文相比,引入的改良甚至带来了性能劣势。
与不同数据集上的监督预训练模型相比,准确性有所提高。
在比拟其余数据集上的迁徙学习性能时,ReLICv2 与其余办法(如 NNCLR 和 BYOL)相比,持续体现出令人印象粗浅的性能。这进一步表明 ReLICv2 是一种新的、先进的自监督预训练方法。其余论文中不常常提到对其余数据集的评估。
ReLICv2 和 BYOL 学习簇的可视化。点越蓝,越靠近对应的类簇。
这个图表显示 ReLICv2 学习的类比其余框架(如 BYOL)更靠近。这再次表明与其余办法相比,这些技术有可能创立更细粒度的簇。
最初总结
在本文中介绍了 ReLICv2,这是一种新的自我监督预训练方法并显示出十分好的的试验后果。
通过联合比照学习指标的概率公式,并通过增加通过验证的新鲜加强计划,该技术可能推动视觉自监督预训练的空间向前倒退。
心愿本文能让你对 ReLICv2 有一个很好的初步理解,但仍有很多货色须要发现。因而倡议浏览原论文,即便您是该畛域的老手。你必须从某个中央开始;)心愿你喜爱这篇论文的解释。如果对文章有任何意见或发现任何谬误,请随时发表评论。
援用:
[1] Mitrovic, Jovana, et al.“Representation learning via invariant causal mechanisms.”arXiv preprint arXiv:2010.07922 (2020).
[2] Tomasev, Nenad, et al.“Pushing the limits of self-supervised ResNets: Can we outperform supervised learning without labels on ImageNet?.”arXiv preprint arXiv:2201.05119 (2022).
https://www.overfit.cn/post/10a7118f47604bd090e966e0e20c0173
本文作者:Leon Sick