共计 3499 个字符,预计需要花费 9 分钟才能阅读完成。
文章导读
本期文章中,咱们为大家带来了 3 篇自监督学习的相干论文,其中两篇是由卷积网络之父 Yann LeCun 参加公布。
对于大型机器视觉训练任务而言,自监督学习 (Self-supervised learning,简称 SSL) 与有监督办法的成果越来越难分伯仲。
其中,自监督学习是指利用辅助工作 (pretext),从大规模的无监督数据中,开掘本身的监督信息来进步学习表征的品质,通过这种结构监督信息对网络进行训练,从而学习对上游工作有价值的表征。
本文将围绕自监督学习,分享 3 篇论文,以期进步大家对自监督学习的意识和了解。
Barlow Twins:基于冗余缩小的 SSL
题目:
Barlow Twins: Self-Supervised Learning via Redundancy Reduction
作者:
Jure Zbontar, Li Jing, Ishan Misra, Yann LeCun, Stephane Deny
对于自监督学习办法而言,一个十分受用的办法就是学习嵌入向量 (embedding), 因为它不受输出样本失真的影响。
然而这种办法也存在一个无奈防止的问题:trivial constant solution。目前大多数办法都试图通过在实现细节上下功夫,来躲避 trivial constant solution 的呈现。
本篇论文中,作者提出了一个指标函数,通过测量两个雷同网络的输入(应用失真样本)之间的互相关矩阵,使其尽可能地靠近单位矩阵 (identity matrix), 从而防止解体 (collapse) 的产生。
这使得样本(失真)的嵌入向量变得类似,同时也会使这些向量组件 (component) 之间的冗余起码。该办法被称为 Barlow Twins。
Barlow Twins 原理示意图
Barlow Twins 无需 large batches,也不须要 network twins 之间具备不对称性(如 pradictor network、gradient stopping 等),这得益于十分高维的输入向量。
Barlow Twins 损失函数:
其中 λ 为失常数 (positive constant),用于衡量 Loss 第一和第二项的重要性;C 为两个雷同网络的输入之间,沿 batch 维度计算的互相关矩阵:
其中,b 示意 batch sample;i, j 代表网络输入的向量维度;C 则示意方块矩阵,其大小为网络输入的维度 (-1~1 之间)。
在 ImageNet 上,Barlow Twins 在低数据机制 (low-data regime) 下的半监督分类中的体现,优于之前的所有办法;在 ImageNet 分类工作中,与当下最先进的 linear classifier 成果相当;在分类和指标检测的迁徙工作中也是如此。
在 ImageNet 上用 1% 和 10% 的训练实例,进行半监督学习,粗体示意最佳后果
试验表明,与其余办法相比,Barlow Twins 的体现稍好(应用 1% 的数据时)或持平(应用 10% 的数据时)。
浏览残缺论文见:Barlow Twins: Self-Supervised Learning via Redundancy Reduction
VICReg:方差 – 不变性 – 协方差正则化
题目:
VICReg: Variance-Invariance-Covariance Regularization for Self-Supervised Learning
作者:
Adrien Bardes, Jean Ponce, Yann LeCun
用于图像表征学习的自监督办法,个别基于同一图像、不同视图的嵌入向量之间的一致性,进行最大化。 当编码器 Encoder 输入常数向量时,就会呈现一个 trivial solution。
个别状况下,会通过学习架构中的 implicit bias(不足明确的理由或解释),防止这个解体 (collapse) 问题的呈现。
本篇论文中,作者介绍 VICReg (全称 Variance-Invariance-Covariance Regularization),它在每个维度的嵌入方差上,都有一个简略的正则化项,因而能够明确防止解体问题的产生。
VICReg 联合了方差项与基于缩小冗余和协方差正则化的去相干机制 (decorrelation mechanism),并在几个上游工作上,获得了与目前技术水平相当的后果。
此外,试验表明将全新的方差项纳入其余办法,有助于稳固训练并进步性能。
VICReg 原理示意图
给定一批图像 I,X 和 X’ 别离示意不同的视图,将其编码为表征 Y 和 Y’。表征被输出至扩展器 (expander),生成嵌入向量 Z 和 Z’。
来自同一图像的两个嵌入之间的间隔被最小化,每个嵌入变量在一个 batch 中的方差,放弃在阈值以上,并且一个 batch 中成对的嵌入变量之间的协方差被吸引到零,使这些变量之间互相关联。
尽管这两个分支不须要雷同的架构,也不须要共享权重,但大多数试验中,它们是共享权重的孪生网络 (Siamese):编码器是输入维度为 2048 的 ResNet-50 主干网洛;扩展器包含 3 个大小为 8192 的全连贯层。
不同办法在 ImageNet 上的体现比照,下划线标注了体现最佳的前 3 个自监督办法
评估用 VICReg 预训练的 ResNet-50 骨干网络失去的表征:
1、在 ImageNet 解冻表征 (frozen representation) 之上的 linear classification;
2、从 1% 和 10% 的 ImageNet 样本的微调表征之上的半监督分类。
图片展现了 Top-1 和 Top-5 的准确率(单位:%)。
浏览残缺论文见:VICREG: VARIANCE-INVARIANCE-COVARIANCE REGULARIZATION FOR SELF-SUPERVISED LEARNING
iBOT:Image BERT Online Tokenizer
题目:
iBOT: Image BERT Pre-Training with Online Tokenizer
作者:
Jinghao Zhou, Chen Wei, Huiyu Wang, Wei Shen, Cihang Xie, Alan Yuille, Tao Kong
NLP 畛域 Transformer 模型的胜利,次要得益于掩码语言模型 (masked language modeling,简称 MLM) 的辅助工作 (pretext),即首先将文本分词为具备语义的片段。
本篇论文中,作者对掩码图像模型 (masked image modeling,简称 MIM) 进行钻研,提出了一个自监督框架 iBOT。
iBOT 能够利用 online tokenizer 进行掩码预测 (masked prediction)。 具体来说,作者对 masked patch token 进行自蒸馏 (self-distillation),并将 teacher 网络作为在线分词器,同时对 class token 进行自蒸馏,以取得视觉语义 (visual semantics)。
在线分词器还能够与 MIM 指标独特学习,并罢黜了分词器须要提前预训练的多阶段训练 pipeline。
iBOT 框架概览,借助在线分词器进行掩码图像建模
iBOT 体现突出,在与分类、指标检测、实例宰割和语义宰割等相干的上游工作上, 均获得了最先进的后果。
Table 2:在 ImageNet-1K 上进行微调,Table 3:在 ImageNet-1K 上进行微调,并在 ImageNet-22K 上进行预训练
试验结果表明,iBOT 在 ImageNet-1K 上达到了 82.3% 的 linear probing 准确率,以及 87.8% 的微调准确率。
浏览残缺论文见:IMAGE BERT PRE-TRAINING WITH ONLINE TOKENIZER
DocArray:实用于非结构化数据的数据结构
自监督学习面临的泛滥挑战之一,就是对于大量无标签数据,进行表征学习。
随着互联网技术的迅猛发展,非结构化数据的数量失去了空前的减少,数据结构也笼罩了除文本、图像以外的音视频,甚至 3D mesh。
DocArray 能够极大简化非结构化数据的解决和利用。
DocArray 是一种可扩大数据结构,完满适配深度学习工作, 次要用于嵌套及非结构化数据的传输,反对的数据类型包含文本、图像、音频、视频、3D mesh 等。
与其余数据结构相比:
✅ 示意齐全反对,✔ 示意局部反对,❌ 示意不反对
利用 DocArray,深度学习工程师能够借助 Pythonic API,无效地解决、嵌入、搜寻、举荐、存储和传输数据。
以上就是本期自监督学习论文分享的全部内容,还想要理解哪些论文、教程以及工具举荐?欢送公众号后盾留言通知咱们,咱们将依据留言每周放送图片
参考链接:
Jina GitHub
DocArray
Finetuner
退出 Slack