关于深度学习:自监督学习的知识点总结

本篇文章将对自监督学习的要点进行总结，包含以下几个方面：

监督学习与自监督学习
自监督学习需要背地的动机
NLP 和 CV 中的自监督学习
联结嵌入架构
比照学习
对于数据加强的乏味察看
非比照学习
总结和参考

监督学习：机器学习中最常见的办法是监督学习。在监督学习中，咱们失去一组标记数据（X，Y），即（特色，标签），咱们的工作是学习它们之间的关系。然而这种办法并不总是易于解决，因为 -

训练通常须要大量数据，而标记数百万行数据既耗时又低廉，这就对许多不同工作的训练模型造成了瓶颈。
以这种形式训练的模型通常十分善于手头的工作，但不能很好地推广到相干然而非雷同畛域内的工作。因为网络只专一于学习 X 的良好示意以生成之间的间接映射 X 和 Y，而不是学习 X 的良好通用示意，所以无奈转移到相似的其余工作。

这种学习通常会导致对概念的十分浮浅的了解，即它学习了 X 和 Y 之间的关系（它优化了网络以学习这种映射），但它不了解 X 的理论含意或它背地的含意。

自监督学习 (Self-supervised learning / SSL)：自监督学习也实用于（特色、标签）数据集，即以监督的形式，但它不须要人工正文的数据集。它的根本思维是屏蔽 / 暗藏输出的某些局部，并应用可察看的局部来预测暗藏的局部。正如咱们将在上面看到的，这是一个十分弱小的想法。然而咱们不称其为无监督学习是因为它依然须要标签，但不须要人工对其进行标注。

SSL 的劣势是如果咱们手头有大量未标记的数据，SSL 的形式能够让咱们利用这些数据。这样模型能够学习更弱小的数据底层构造的示意，并且这些示意比监督学习中学到的更广泛，而后咱们能够针对上游工作进行微调。

在过来的 10 年里，深度学习获得了长足的提高。几年前被认为计算机仿佛不可能实现的工作（例如机器翻译、图像识别、宰割、语音辨认等）中，曾经达到 / 超过了人类程度的体现。在经验了十年的胜利故事之后，深度学习当初正处于一个关键点，人们曾经缓缓但必定地开始意识到以后深度学习办法的根本局限性。

人类和以后人工智能的次要区别之一是人类能够比机器更快地学习事物，例如仅通过查看 1-2 张照片来辨认动物，只需 15-20 小时即可学会驾驶汽车。人类如何做到这一点？常识！尽管咱们还不晓得常识是如何产生的，但却能够通过思考人类如何理论理解世界来做出一些有依据的猜想：

人类次要通过观察学习，很少通过监督学习。从婴儿出世的那一刻起（或者之前），它就一直地听到 / 看到 / 感觉到四周的世界。因而，产生的大部分学习只是通过观察。
人类能够利用随着工夫的推移取得的常识（感知、静止技能、根底物理来帮忙导航世界等），而以后的 SOTA 机器却不能。

自监督学习通过学习从未屏蔽局部预测数据的屏蔽局部来模拟的人类这部分的能力。

NLP 中的个别做法是屏蔽一些文本并应用左近的文本对其进行预测。这种做法曾经有一段时间了，当初 SOTA 模型都是以这种形式进行训练，例如 BERT、ROBERTA XLM-R、GPT-2,3 等。在 NLP 中利用这种技术绝对容易，因为屏蔽词的预测只能取离散值，即词汇表中的一个词。所以咱们所要做的就是在词汇表中生成一个超过 10-20k 个单词的概率分布。

然而在计算机视觉方面，可能性是有限的。咱们在这里解决高维间断对象，例如，一个 10X10 的屏蔽图像块可能在单个通道上获取 255¹⁰⁰ 值，对于动起来的视频复杂性甚至更高（同样的逻辑也实用于语音辨认）。与 NLP 不同，咱们无奈对每一种可能性做出预测，而后抉择更高概率的预测。这仿佛是计算机视觉中一个辣手的问题。

这里把图像识别作为咱们运行的工作。SSL 会屏蔽一些随机图像块，而后尝试预测这些被屏蔽的块。因为咱们无奈对图像块中的每一种可能性进行预测，所以咱们只能应用类似度匹配。

联结嵌入架构。这两个神经网络能够完全相同，也能够局部共享，也能够齐全不同。

这个想法是训练一种孪生网络来计算两张图像之间的类似度，同时保障以下后果 –

类似 / 兼容的图像应该返回更高的类似度分数。
不同 / 不兼容的图像应返回较低的类似度分数。

第 1 点很容易实现 - 能够用不同形式加强图像，例如裁剪、色彩加强、旋转、挪动等。而后让孪生网络学习原始图像和加强图像的类似示意。在将模型输入与固定指标进行比拟的意义上，咱们不再进行预测建模，因为当初比拟的是模型的两个编码器的输入，这使得学习示意非常灵活。

然而第 2 点很麻烦。因为当图像不同时，咱们如何确保网络学习不同的嵌入？如果没有进一步的激励，无论输出如何，网络都能够为所有图像学习雷同的示意。这称为模式解体。那么如何解决这个问题？

根本思维是提供一组负样本和正样本。损失函数的指标是找到示意以最小化正样本之间的间隔，同时最大化负样本之间的间隔。图像被编码后的间隔能够通过点积计算，这正是咱们想要的！那么这是否意味着计算机视觉中的 SSL 当初曾经解决了？其实还没有齐全解决。

为什么这么说呢？因为图像是十分高维的对象，在高维度下遍历所有的负样本对象是简直不可能的，即便能够也会十分低效，所以就衍生出了上面的办法。

在形容这办法之前，让咱们首先来探讨比照损失这将会帮忙咱们了解上面提到的算法。咱们能够将比照学习看作字典查找工作。设想一个图像 / 块被编码（查问），而后与一组随机（负 – 原始图像以外的任何其余图像）样本 + 几个正（原始图像的加强视图）样本进行匹配。这个样本组能够被视为一个字典（每个样本称为一个键）。假如只有一个正例，这意味着查问将很好地匹配其中一个键。这样比照学习就能够被认为是缩小查问与其兼容键之间的间隔，同时减少与其余键的间隔。

目前比照学习中两个要害算法如下：

Momentum Contrast – 这个想法是要学习良好的示意，须要一个蕴含大量负样本的大型字典，同时放弃字典键的编码器尽可能保持一致。这种办法的外围是将字典视为队列而不是动态内存库或小批量的解决。这样能够为动静字典提供丰盛的负样本集，同时还将字典大小与小批量大小解耦，从而依据须要使负样本变得更大。
SimCLR – 核心思想是应用更大的批大小（8192，以取得丰盛的负样本集），更强的数据加强（裁剪，色彩失真和高斯含糊），并在相似性匹配之前嵌入的非线性变换，应用更大模型和更长的训练工夫。这些都是须要重复试验的不言而喻的事件，该论文凭教训表明这有助于显著的进步性能。

然而比照学习也有局限性：

须要大量的负样本来学习更好的示意。
训练须要大批量或大字典。
更高的维度上不能进行缩放。
须要某种不对称性来防止常数解。

在下面提到的所有办法 / 算法中，数据加强都起着关键作用。为了训练相似 SSL 模型，通过一组规定（裁剪、挪动、旋转、色彩失真、含糊等）加强原始图像来生成正对。而后模型学会疏忽这种噪声（例如平移、色彩失真和旋转不变性），以学习与正对（原始图像和加强图像）靠近的示意。然而这些模型在图像识别工作上做得很好，但当模型曾经学会疏忽这些变动时，以雷同的示意进行指标检测工作时会取得十分差的成果。这是因为它很难在对象四周搁置边界框，因为学习的示意被训练为疏忽指标对象的地位和定位。

与比照学习不同，模型仅从正样本中学习，即从图像及其加强视图中学习。

实践上上感觉这应该行不通，因为如果网络只有正例，那么它就学会疏忽常量向量的输出和输入（下面提到的模式解体），这样损失就会变成 0。

而实际上这并没有产生🤣模型学习到了良好的示意。为什么呢？上面通过形容该畛域的一些要害算法来进行阐明：

1、BARLOW TWINS：这是一种受神经科学启发的算法，基于 1961 年发表的论文的发现。它依然应用如上所述的带有加强图像的联结嵌入式架构。然而它核心思想是使图像嵌入输入之间的互相关矩阵尽可能靠近单位矩阵。这个简略的想法防止了简单的解决方案，并取得了 ImageNet 上的 SOTA 性能。并且它在高维度上成果更好，不须要不对称，不须要大批量的数据或内存存储或任何其余启发式办法来使其工作。

下图解释了算法的整体架构。单个图像在加强策略的散布上被解决两次。而后两个图像都通过雷同的编码器网络。损失函数的定义形式是将相互矩阵简化为单位矩阵。

损失函数十分直观

这里 C 是两个图像的嵌入之间的互相关矩阵。在这里没有应用任何负样本！

第一项，当所有 C_ii 为 1 即相关矩阵的对角元素为 1 时，损失函数中的不变项最小。这使得随着相关性的增强，嵌入对加强解决放弃不变。第二项，即冗余缩减项强制非对角线值为 0，即它使嵌入的其余维度去相干。这使得模型在加强解决的同时学习无关样本的非冗余信息。

2、BYOL：这种办法不像 Barlow Twins 那样简略，因为它须要某些启发式办法才能够失常工作。它依赖于两个神经网络（target 和 target），并试图从 online 中预测 target。两个网络中的权重不同。为了在架构中引入不对称性以防止琐碎的常量嵌入，target 网络中引入了预测器模块。

本文中没有对 BYOL 进行像 BARLOW TWINS 清晰和直观的解释，所以如果想理解其具体内容请参考原论文：arxiv 2006.07733

另外还有一种最新的办法 VICReg（arxiv：2105.04906）如果有简直的话会在前面介绍

总结整篇文章，下图展现了 SSL 在 NLP 和计算机视觉中的细分。

最初就是援用：

Lex Friedman interviewing Yann LeCun for 3 hours
Zbontar, Jure, et al.“Barlow twins: Self-supervised learning via redundancy reduction.”International Conference on Machine Learning. PMLR, 2021.
Grill, Jean-Bastien, et al.“Bootstrap your own latent-a new approach to self-supervised learning.”Advances in Neural Information Processing Systems 33 (2020): 21271–21284.
He, Kaiming, et al.“Momentum contrast for unsupervised visual representation learning.”Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020
Chen, Ting, et al.“A simple framework for contrastive learning of visual representations.”International conference on machine learning. PMLR, 2020.
Yann LeCun’s blog on self supervised learning
Ermolov, Aleksandr, et al.“Whitening for self-supervised representation learning.”International Conference on Machine Learning. PMLR, 2021.
Chen, Xinlei, and Kaiming He.“Exploring simple siamese representation learning.”Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.
Caron, Mathilde, et al.“Deep clustering for unsupervised learning of visual features.”Proceedings of the European conference on computer vision (ECCV). 2018.
https://www.overfit.cn/post/c6185b513a564c6cb5022abe0bafcbec

作者：Sharad Joshi

关于深度学习:自监督学习的知识点总结

监督学习与自监督学习

需要和动机

NLP 与 CV 中的 SSL

孪生网络 / 联结嵌入架构

比照学习 Contrastive Learning

数据加强的乏味察看

非比照学习

总结

Just My Socks（注册教程内含优惠码）

关于深度学习:自监督学习的知识点总结

监督学习与自监督学习

需要和动机

NLP 与 CV 中的 SSL

孪生网络 / 联结嵌入架构

比照学习 Contrastive Learning

数据加强的乏味察看

非比照学习

总结

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）