关于人工智能:论文解读基于图的自监督学习联合嵌入预测架构

一、简要介绍

本文演示了一种学习高度语义的图像示意的办法，而不依赖于手工制作的数据加强。论文介绍了基于图像的联结嵌入预测架构（I-JEPA），这是一种用于从图像中进行自监督学习的非生成性办法。I-JEPA 背地的 idea 很简略：从单个上下文块中，预测同一图像中不同指标块的示意。领导 I -JEPA 产生语义示意的外围设计抉择是掩膜策略；具体来说，(a) 预测图像中的几个指标块，(b) 采样足够大规模的样本指标块（占图像的 15%-20%），(c) 应用足够丰盛的（空间散布）上下文块，是至关重要的。依据教训，当与视觉 transformer 联合时，论文发现 I -JEPA 具备高度的可缩放性。例如，论文在 ImageNet 上应用 32 个 A100 GPU 在 38 小时内训练一个 ViT-Huge/16，以在须要不同形象级别的宽泛工作中实现弱小的上游性能，从线性分类到对象计数和深度预测。

二、钻研背景

在计算机视觉中，有两种常见的图像自监督学习办法。

基于不变性的办法和生成办法。基于不变性的预训练方法优化编码器，为同一图像的两个或多个视图产生相似的嵌入，图像视图通常应用一组手工制作的数据加强来构建，如随机缩放、裁剪和色彩抖动，以及其余。这些预训练方法能够产生高语义级别的示意，但它们也会引入强烈的偏差，可能对某些上游工作，甚至对不同数据分布的预训练任务无害。

认知学习实践认为，生物零碎中表征学习背地的一个驱动机制是如何适应一个外部模型来预测感官输出反馈。这个想法是自我监督生成办法的外围，它删除或损坏局部输出，并学习预测损坏的内容。特地是，掩膜去噪办法通过从输出的像素或令牌级别重建随机掩膜补丁来学习示意。与视图不变性办法相比，掩膜的预训练任务须要更少的先验常识，并且很容易推广到图像模态之外。然而，所失去的示意通常具备较低的语义级别，并且在现成的评估（如线性探测）和对语义分类工作监督无限的转移设置中不足基于不变性的预训练。因而，须要一个更简单的适应机制（例如，端到端微调）来取得这些办法的充沛劣势。

在这项工作中，论文摸索如何进步自我监督示意的语义程度，而不应用额定的先验常识编码的图像转换。为此，论文引入了一种图像联结嵌入预测架构（I-JEPA）。图 3 提供了该办法的一个阐明。I-JEPA 背地的构思是预测形象示意空间中的缺失信息；例如，给定一个上下文块，预测同一图像中不同指标块的示意，其中指标示意是由学习到的指标编码器网络计算的。

与在像素 / 标记空间中进行预测的生成办法相比，I-JEPA 利用形象的预测指标，可能打消不必要的像素级细节，从而导致模型学习更多的语义特色。另一个领导 I -JEPA 产生语义示意的外围设计抉择是所提出的多块掩膜策略。具体来说，论文演示了应用一个信息丰盛的（空间散布的）上下文块来预测图像中的几个指标块（具备足够大的规模）的重要性。

通过宽泛的实证评估，论文证实：

I-JEPA 学习了弱小的现成的语义示意，而不应用手工制作的视图加强 (图 1)。I-JEPA 优于像素重建办法，如在 ImageNet-1K 线性探测上的 MAE、半监督的 1% ImageNet-1K 和语义传输工作。

I-JEPA 在语义工作上与视图不变预训练方法具备竞争力，并且在对象计数和深度预测等低级视觉工作上获得了更好的性能。通过应用一个更简略的模型和更少的刚性演绎偏差，I-JEPA 是实用于更宽泛的工作集。

I-JEPA 也是可缩放的和高效的。在 ImageNet 上对 ViT-H/14 进行预训练大概须要 2400 GPU 小时，比应用 iBOT 预训练的 ViTB/16 快 50%，比应用 MAE 预训练的 ViT-L/16 的效率快 140%。在示意空间中的预测显著缩小了自我监督预训练所需的总计算量。

自我监督学习是一种表征学习的办法，其中一个零碎学习捕捉其输出之间的关系。这个指标能够很容易地应用基于能量的模型（EBMs）的框架来形容，其中自我监督的指标是为不兼容的输出调配高能，并为兼容的输出调配低能量。许多现有的生成式和非生成式的自我监督学习办法的确能够在这个框架中进行转换；见图 2。

联结嵌入式架构（Joint-Embedding Architectures）。基于不变性的预训练能够应用联结嵌入架构（JEA）在 EBM 的框架中进行强制转换；参见图 2a。联结嵌入架构学习为兼容的输出 x、y 输入相似的嵌入，为不兼容的输入输出不同的嵌入。在基于图像的预训练中，兼容的 x，y 对通常是通过对雷同的输出图像随机利用手工制作的数据加强来构建的。

JEA 的次要挑战是示意坍缩，其中能量景观是平坦的（即，编码器产生一个恒定的输入，而不论输出如何）。在过来的几年里，曾经钻研了几种办法来避免示意坍缩，如明确推动负例子嵌入的比照损失，最小化嵌入的信息冗余的非比照损失，以及基于聚类的办法来最大化均匀嵌入的熵。也有一些启发式的办法，利用 x 编码器和 y 编码器之间的非对称架构设计来防止坍缩的。生成式架构（Generative Architectures）。基于重构的自监督学习办法也能够在应用生成式架构的 EBM 框架中进行强制转换；见图 2b。

生成式架构学习从一个兼容的信号 x 间接重建信号 y，应用一个附加的（可能是潜在的）变量 z 的解码器网络，以促成重建。在基于图像的预训练中，计算机视觉中一种常见的办法是应用掩膜产生兼容的 x，y 对，其中 x 是图像 y 的一个正本，但有一些补丁被掩膜。而后，条件反射变量 z 对应于一组（可能是可学习的）掩膜和地位标记，它指定了要重建的图像补丁的解码器。只有 z 的信息容量比信号 y 要低，这些体系结构就不会关注示意坍缩。

联结嵌入式预测性架构（Joint-Embedding Predictive Architectures）。如图 2c 所示，联结嵌入预测架构在概念上相似于生成式架构；然而，一个要害的区别是，损失函数利用于嵌入空间，而不是输出空间。JEPA 学习从兼容的信号 x 预测信号 y 的嵌入，应用一个附加（可能是潜在）变量 z 的预测网络以促成预测。论文提出的 I -JEPA 在应用掩膜的图像上下文中提供了该架构的实例化；参见图 3。与联结嵌入架构相比，JEPA 并不寻求对一组手工制作的数据加强不变的示意，而是寻求在附加信息 z 条件时互相预测的示意。然而，与联结嵌入架构一样，示意坍缩也是 JEPA 关注的一个问题。论文利用 x 和 y 编码器之间的非对称架构，以防止 I -JEPA 中的示意坍缩。

三、办法介绍

论文当初形容了所提出的基于图像的联结嵌入预测体系结构（I-JEPA），如图 3 所示。总体目标如下：给定一个上下文块，预测同一图像中不同指标块的示意。论文应用视觉 Transformer（ViT）架构作为上下文编码器、指标编码器和预测器。一个 ViT 由一堆 Transformer 层组成，每个 Transformer 层由一个自留神的操作和一个全连贯的 MLP 组成。论文的编码器 / 预测器架构让人想起生成掩膜主动编码器（MAE）办法。然而，一个要害的区别是，I-JEPA 办法是非生成性的，并且预测是在示意空间中做出的。

四、图像分类

为了证实 I -JEPA 在不依赖于手工制作的数据加强的状况下学习高级示意，论文报告了应用线性探测和局部微调协定的各种图像分类工作的后果。在本节中，论文将思考在 ImageNet-1K 数据集上事后训练过的自监督模型。预训练和评估施行细节见附录 a。所有的 I -JEPA 模型都在分辨率 224×224 中进行训练，除非另有明确阐明。

ImageNet-1K. 表 1 显示了在通用的 ImageNet-1K 线性评估基准上的性能。通过自监督预训练后，解冻模型权值，并应用残缺的 ImageNet-1K 训练集在顶部训练一个线性分类器。与风行的掩膜主动编码器（MAE）和 data2vec 办法相比，它们在训练前也不依赖大量手工制作的数据加强，论文看到 I -JEPA 显著进步了线性探测性能，同时应用了更少的计算量。此外，I-JEPA 还受害于规模。在分辨率为 448 时训练的 ViT-H/16 与视图不变办法的性能相匹配，如 iBOT，而不须要额定的手工数据裁减。

Low-Shot ImageNet-1K. 表 2 显示了在 1% 的 ImageNet 基准测试上的性能。这里的办法是将事后训练好的模型用于 ImageNet 分类，只应用 1% 的 ImageNet 标签，对应于每个类大概 12 或 13 张图像。模型通过微调或线性探测来进行调整，这取决于每种办法的最佳成果。当应用相似的编码器架构时，I-JEPA 优于 MAE，同时须要更少的预训练期间。I-JEPA，应用 ViTH/14 架构，与应用数据 2vec 预训练的 ViT-L/16 的性能相匹配，同时应用了显著更少的计算量。通过进步图像输出分辨率，I-JEPA 优于以前的办法，包含联结嵌入办法，在训练前利用额定的手工数据加强，如 MSN、DINO 和 iBOT。

Transfer learning. 表 3 显示了应用线性探头的各种上游图像分类工作的性能。I-JEPA 显著优于以前不应用加强的办法（MAE 和数据 2vec），并缩小了在训练前利用手工制作的基于观点不变的最佳办法的差距，甚至超过了 CIFAR100 和 Place205 上风行的 DINO。

五、本地预测工作（Local Prediction Tasks）

I-JEPA 学习语义图像示意，显著进步了以往办法的上游图像分类性能，如 MAE 和 data2vec。此外，I-JEPA 受害于规模，并能够缩小差距，甚至超过，利用额定的手工制作的数据加强的基于视图不变性的办法。在本节中，论文发现 I -JEPA 也能学习部分图像特色，并在低水平和密集的预测工作中，如对象计数和深度预测中，超过了基于视图不变性的办法。

表 4 显示了应用线性探测的各种低级工作的性能。特地是，通过预训练后，模型的权值被解冻，并在顶部训练一个线性模型，对 Clevr 数据集进行对象计数和深度预测。与 DINO 和 iBOT 等视图不变性办法相比，I-JEPA 办法在训练前无效地捕捉了低级图像特色，并在对象计数（Clevr/Count）和（大幅度）深度预测（Clevr/Dist）方面优于它们。

六、可缩放性（Scalability）

模型效率（Model Efficiency）与以前的办法相比，I-JEPA 具备高度的可缩放性。图 5 显示了对 1% ImageNet-1K 作为 GPU hour 的函数的半监督评估。I-JEPA 比以前的办法须要更少的计算，并且在不依赖手工数据加强的状况下取得了弱小的性能。与间接应用像素作为指标的 MAE 等基于重建的办法相比，I-JEPA 通过在示意空间中计算指标而引入了额定的开销（每次迭代的工夫大概慢 7%）。

缩放数据大小（Scaling data size）。论文还发现 I -JEPA 受害于更大数据集的预训练。表 5 显示了在减少训练前数据集的大小（IN1KvsIN22K）时，在语义工作和低水平工作上的迁徙学习性能。当对更大更多样化的数据集进行预训练时，这些概念不同的工作上的迁徙学习性能会进步。缩放模型大小（Scaling model size）。表 5 还显示，在 IN22K 上进行预训练时，I-JEPA 受害于更大的模型规模。与 ViT-H/14 模型相比，对 ViT-G/16 的预训练显著进步了对 Place205 和 INat18 等图像分类工作的上游性能。ViTG/16 模型并不能进步对低级上游工作的性能。ViT-G/16 应用更大的输出补丁大小，这可能对本地预测工作无害。

七、预测可视化（Predictor Visualizations）I-JEPA 中预测器的作用是取上下文编码器的输入，并以地位掩膜令牌为条件，预测掩膜令牌指定的地位上指标块的示意。一个问题是，以地位掩模令牌条件的预测器是否正在学习正确捕捉指标中的地位不确定性。为了定性地钻研这个问题，论文将预测器的输入可视化。在预训练后，论文解冻了上下文编码器和预测器的权值，并依照 RCDM 框架训练一个解码器，将预测器输入的均匀池映射回像素空间。图 6 显示了各种随机种子的解码器输入。在样本之间常见的个性示意蕴含在均匀合并预测器示意中的信息。I-JEPA 预测器能正确地捕捉到地位的不确定性，并产生具备正确姿势的高级物体部件（例如，鸟的背部和汽车的顶部）。不同样本中不同的品质示意表示法中不蕴含的信息。在这种状况下，I-JEPA 预测器抛弃了准确的低级细节和背景信息。

八、融化（Ablations）

在示意空间中的预测（Predicting in representation space.）。表 7 比拟了在像素空间和示意空间中计算 1% ImageNet-1K 时的 low-shot 性能。论文揣测，I-JEPA 的一个要害组成部分是，损失齐全在示意空间中计算，从而使指标编码器可能产生形象的预测指标，从而打消了无关的像素级细节。从表 7 中能够分明地看出，在像素空间中的预测会导致线性探测性能的显著降落。

掩膜策略（Masking strategy）。在表 8 中，论文缩小了在 I -JEPA 预训练过程中所提出的 multi-block 掩膜策略（如图 4 所示）中的指标块的数量以及上下文和指标块的规模。论文应用具备各种多块设置的 I -JEPA 训练了 300 个周期，并应用线性探针比拟了在 1% ImageNet-1K 基准测试上的性能。简而言之，论文发现预测几个绝对较大的（语义）指标块，并应用信息充沛的（空间散布的）上下文块是很重要的。

表 6 在与其余掩膜策略进行比拟时，也进行了相似的融化。论文与 rasterized 掩膜策略进行了比拟，其中图像被宰割成四个大象限，其指标是应用一个象限作为上下文来预测其余三个象限。论文还比拟了通常用于基于重建的办法的传统的 block 和 random 掩膜策略。在 block 掩膜中，指标是单个图像块，上下文是图像补体。在 random 掩膜中，指标是一组随机的（可能是不间断的）图像补丁，而上下文是图像的补体。请留神，在所有思考的掩膜策略中，上下文块和指标块之间没有重叠。所提出的 multi-block 掩膜策略是 I -JEPA 学习语义示意的要害。即便切换到传统的 block 掩膜，ImageNet 的性能也会升高超过 24%。

九、论断论文提出了 I -JEPA，一种简略而无效的学习语义图像示意的办法，而不依赖于手工制作的数据加强。论文表明，通过在示意空间中进行预测，I-JEPA 比像素重建办法收敛速度更快，并学习高语义程度的示意。与基于视图不变性的办法相比，I-JEPA 强调了应用联结嵌入架构学习个别示意的门路，而不依赖于手工制作的视图加强。附录见原文，原文链接：https://arxiv.org/abs/2301.08243

关于人工智能:论文解读基于图的自监督学习联合嵌入预测架构

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）