最近自我监督学习被器重起来。昨天我通过 LinkedIn 发现了这项工作,我感觉它很乏味。kaiming 大神的 MAE 为 ViT 和自监督的预训练发明了一个新的方向,本篇文章将介绍 Masked Siamese Networks (MSN),这是另一种用于学习图像示意的自监督学习框架。MSN 将蕴含随机掩码的图像视图的示意与原始未遮蔽的图像的示意进行匹配。
思考一个大的未标记图像集 D = (x_i)和一个小的带正文图像集 S = (x_si, y_i),其中 len(D) >> len(S)。这里,S 中的图像可能与数据集 D 中的图像重叠。咱们的训练指标是通过对 D 进行预训练来学习视觉示意,而后应用 S 将示意转移 / 微调到监督工作中。
Masked Siamese Networks
如果你对 ViT 比拟相熟,上面要探讨的内容应该很相熟。咱们通过将每个视图转换为一系列不重叠的 NxN 块“Patchs”。而后论文作者介绍了通过一些随机的掩码来遮蔽图像并取得一个该图像的加强。在上图中能够看到两种策略,无论应用那种策略咱们失去了分块(Patch)后的指标序列 x{+}_i 及其对应的掩码序列 x_i,m,其中后者会显著短于指标。
编码器 ViT 的指标是学习掩码的示意。最初通过[CLS] token 失去一个序列的示意。
作者引入了一个矩阵 q,它由 K (K>1)个可学习原型(prototypes)组成,每个原型的维数为 d。首先,咱们别离失去掩码序列 (patchfied & mask) 和指标序列 (patchfied only) 的示意,z_i,m 和 z_i。而后应用 L2 归一化该示意,相应的预测 (p) 通过测量原型矩阵 q 的余弦类似度来计算。Tau 示意一个温度参数,在 (0,1) 之间。留神,作者在计算指标预测时应用了一个更大的温度值,这隐式地疏导网络产生自信的低熵锚预测。
最初,指标函数为
其中第一项示意规范穿插熵损失(H),第二项是 MIN-MAX 正则化器,它寻求最大化所有掩码序列(p_i,m),p_hat 的均匀预测的熵。
这里须要留神的有 3 点问题:
1、仅针对锚预测 p_i,m 计算梯度。2、在规范比照学习中,明确激励两个视图靠近的示意。MSN 通过激励 2 个视图与可学习原型的间隔来做到这一点,这能够被视为某种集群质心。两个视图的示意应该落入嵌入空间中的同一点。此外超参数中可学习原型的数量,作者应用了 1024(与批大小匹配),维度 d 设置为 256。3、MAE 也提出了掩蔽图像。然而,MAE 尝试从其蒙面视图重建图像,而 MSN 间接尝试最大化两个视图示意的相似性。
后果
MSN 在 ImageNet-1K 上的线性评估方面优于 MAE 和其余模型。并且比拟 MSN 和 MAE 很乏味,因为它们都引入了掩码。这可能是该畛域将来工作的一个有见地的发现。作者还发现 Focal Mask 策略会升高性能,而 Random Mask 通常会进步性能。然而同时利用这两者会有显着的改良。还记得吗,MAE 仅应用随机掩蔽。
最初,当减少模型大小时,作者发现减少掩蔽率(抛弃更多块)有助于进步少样本性能。
我心愿你感觉这篇文章对你的学习有帮忙和 / 或乏味。论文地址在这里:
Masked Siamese Networks for Label-Efficient Learning
https://avoid.overfit.cn/post/52333da7b60b4d079d829a8435073f13
作者:ching