一、简要介绍


 
本文演示了一种学习高度语义的图像示意的办法,而不依赖于手工制作的数据加强。论文介绍了基于图像的联结嵌入预测架构(I-JEPA),这是一种用于从图像中进行自监督学习的非生成性办法。I-JEPA背地的idea很简略:从单个上下文块中,预测同一图像中不同指标块的示意。领导I-JEPA产生语义示意的外围设计抉择是掩膜策略;具体来说,(a)预测图像中的几个指标块,(b)采样足够大规模的样本指标块(占图像的15%-20%),(c)应用足够丰盛的(空间散布)上下文块,是至关重要的。依据教训,当与视觉transformer联合时,论文发现I-JEPA具备高度的可缩放性。例如,论文在ImageNet上应用32个A100 GPU在38小时内训练一个ViT-Huge/16,以在须要不同形象级别的宽泛工作中实现弱小的上游性能,从线性分类到对象计数和深度预测。
 
二、钻研背景

在计算机视觉中,有两种常见的图像自监督学习办法。

基于不变性的办法和生成办法。基于不变性的预训练方法优化编码器,为同一图像的两个或多个视图产生相似的嵌入,图像视图通常应用一组手工制作的数据加强来构建,如随机缩放、裁剪和色彩抖动,以及其余。这些预训练方法能够产生高语义级别的示意,但它们也会引入强烈的偏差,可能对某些上游工作,甚至对不同数据分布的预训练任务无害。

认知学习实践认为,生物零碎中表征学习背地的一个驱动机制是如何适应一个外部模型来预测感官输出反馈。这个想法是自我监督生成办法的外围,它删除或损坏局部输出,并学习预测损坏的内容。特地是,掩膜去噪办法通过从输出的像素或令牌级别重建随机掩膜补丁来学习示意。与视图不变性办法相比,掩膜的预训练任务须要更少的先验常识,并且很容易推广到图像模态之外。然而,所失去的示意通常具备较低的语义级别,并且在现成的评估(如线性探测)和对语义分类工作监督无限的转移设置中不足基于不变性的预训练。因而,须要一个更简单的适应机制(例如,端到端微调)来取得这些办法的充沛劣势。

在这项工作中,论文摸索如何进步自我监督示意的语义程度,而不应用额定的先验常识编码的图像转换。为此,论文引入了一种图像联结嵌入预测架构(I-JEPA)。图3提供了该办法的一个阐明。I-JEPA背地的构思是预测形象示意空间中的缺失信息;例如,给定一个上下文块,预测同一图像中不同指标块的示意,其中指标示意是由学习到的指标编码器网络计算的。

与在像素/标记空间中进行预测的生成办法相比,I-JEPA利用形象的预测指标,可能打消不必要的像素级细节,从而导致模型学习更多的语义特色。另一个领导I-JEPA产生语义示意的外围设计抉择是所提出的多块掩膜策略。具体来说,论文演示了应用一个信息丰盛的(空间散布的)上下文块来预测图像中的几个指标块(具备足够大的规模)的重要性。

通过宽泛的实证评估,论文证实:

I-JEPA学习了弱小的现成的语义示意,而不应用手工制作的视图加强(图1)。I-JEPA优于像素重建办法,如在ImageNet-1K线性探测上的MAE、半监督的1% ImageNet-1K和语义传输工作。

I-JEPA在语义工作上与视图不变预训练方法具备竞争力,并且在对象计数和深度预测等低级视觉工作上获得了更好的性能。通过应用一个更简略的模型和更少的刚性演绎偏差,I-JEPA是实用于更宽泛的工作集。

I-JEPA也是可缩放的和高效的。在ImageNet上对ViT-H/14进行预训练大概须要2400 GPU小时,比应用iBOT 预训练的ViTB/16快50%,比应用MAE预训练的ViT-L/16的效率快140%。在示意空间中的预测显著缩小了自我监督预训练所需的总计算量。

自我监督学习是一种表征学习的办法,其中一个零碎学习捕捉其输出之间的关系。这个指标能够很容易地应用基于能量的模型(EBMs)的框架来形容,其中自我监督的指标是为不兼容的输出调配高能,并为兼容的输出调配低能量。许多现有的生成式和非生成式的自我监督学习办法的确能够在这个框架中进行转换;见图2。

联结嵌入式架构(Joint-Embedding Architectures)。基于不变性的预训练能够应用联结嵌入架构(JEA)在EBM的框架中进行强制转换;参见图2a。联结嵌入架构学习为兼容的输出x、y输入相似的嵌入,为不兼容的输入输出不同的嵌入。在基于图像的预训练中,兼容的x,y对通常是通过对雷同的输出图像随机利用手工制作的数据加强来构建的。

JEA的次要挑战是示意坍缩,其中能量景观是平坦的(即,编码器产生一个恒定的输入,而不论输出如何)。在过来的几年里,曾经钻研了几种办法来避免示意坍缩,如明确推动负例子嵌入的比照损失,最小化嵌入的信息冗余的非比照损失,以及基于聚类的办法来最大化均匀嵌入的熵。也有一些启发式的办法,利用x编码器和y编码器之间的非对称架构设计来防止坍缩的。生成式架构(Generative Architectures)。基于重构的自监督学习办法也能够在应用生成式架构的EBM框架中进行强制转换;见图2b。

生成式架构学习从一个兼容的信号x间接重建信号y,应用一个附加的(可能是潜在的)变量z的解码器网络,以促成重建。在基于图像的预训练中,计算机视觉中一种常见的办法是应用掩膜产生兼容的x,y对,其中x是图像y的一个正本,但有一些补丁被掩膜。而后,条件反射变量z对应于一组(可能是可学习的)掩膜和地位标记,它指定了要重建的图像补丁的解码器。只有z的信息容量比信号y要低,这些体系结构就不会关注示意坍缩。

联结嵌入式预测性架构(Joint-Embedding Predictive Architectures)。如图2c所示,联结嵌入预测架构在概念上相似于生成式架构;然而,一个要害的区别是,损失函数利用于嵌入空间,而不是输出空间。JEPA学习从兼容的信号x预测信号y的嵌入,应用一个附加(可能是潜在)变量z的预测网络以促成预测。论文提出的I-JEPA在应用掩膜的图像上下文中提供了该架构的实例化;参见图3。与联结嵌入架构相比,JEPA并不寻求对一组手工制作的数据加强不变的示意,而是寻求在附加信息z条件时互相预测的示意。然而,与联结嵌入架构一样,示意坍缩也是JEPA关注的一个问题。论文利用x和y编码器之间的非对称架构,以防止I-JEPA中的示意坍缩。

 三、办法介绍

论文当初形容了所提出的基于图像的联结嵌入预测体系结构(I-JEPA),如图3所示。总体目标如下:给定一个上下文块,预测同一图像中不同指标块的示意。论文应用视觉Transformer(ViT)架构作为上下文编码器、指标编码器和预测器。一个ViT由一堆Transformer层组成,每个Transformer层由一个自留神的操作和一个全连贯的MLP组成。论文的编码器/预测器架构让人想起生成掩膜主动编码器(MAE)办法。然而,一个要害的区别是,I-JEPA办法是非生成性的,并且预测是在示意空间中做出的。






 四、图像分类

为了证实I-JEPA在不依赖于手工制作的数据加强的状况下学习高级示意,论文报告了应用线性探测和局部微调协定的各种图像分类工作的后果。在本节中,论文将思考在ImageNet-1K数据集上事后训练过的自监督模型。预训练和评估施行细节见附录a。所有的I-JEPA模型都在分辨率224×224中进行训练,除非另有明确阐明。

ImageNet-1K.表1显示了在通用的ImageNet-1K线性评估基准上的性能。通过自监督预训练后,解冻模型权值,并应用残缺的ImageNet-1K训练集在顶部训练一个线性分类器。与风行的掩膜主动编码器(MAE)和data2vec 办法相比,它们在训练前也不依赖大量手工制作的数据加强,论文看到I-JEPA显著进步了线性探测性能,同时应用了更少的计算量。此外,I-JEPA还受害于规模。在分辨率为448时训练的ViT-H/16与视图不变办法的性能相匹配,如iBOT,而不须要额定的手工数据裁减。

 Low-Shot ImageNet-1K.表2显示了在1%的ImageNet基准测试上的性能。这里的办法是将事后训练好的模型用于ImageNet分类,只应用1%的ImageNet标签,对应于每个类大概12或13张图像。模型通过微调或线性探测来进行调整,这取决于每种办法的最佳成果。当应用相似的编码器架构时,I-JEPA优于MAE,同时须要更少的预训练期间。I-JEPA,应用ViTH/14架构,与应用数据2vec预训练的ViT-L/16的性能相匹配,同时应用了显著更少的计算量。通过进步图像输出分辨率,I-JEPA优于以前的办法,包含联结嵌入办法,在训练前利用额定的手工数据加强,如MSN、DINO 和iBOT。

 Transfer learning.表3显示了应用线性探头的各种上游图像分类工作的性能。I-JEPA显著优于以前不应用加强的办法(MAE和数据2vec),并缩小了在训练前利用手工制作的基于观点不变的最佳办法的差距,甚至超过了CIFAR100和Place205上风行的DINO。


 五、本地预测工作(Local Prediction Tasks)

I-JEPA学习语义图像示意,显著进步了以往办法的上游图像分类性能,如MAE和data2vec。此外,I-JEPA受害于规模,并能够缩小差距,甚至超过,利用额定的手工制作的数据加强的基于视图不变性的办法。在本节中,论文发现I-JEPA也能学习部分图像特色,并在低水平和密集的预测工作中,如对象计数和深度预测中,超过了基于视图不变性的办法。

表4显示了应用线性探测的各种低级工作的性能。特地是,通过预训练后,模型的权值被解冻,并在顶部训练一个线性模型,对Clevr数据集进行对象计数和深度预测。与DINO和iBOT等视图不变性办法相比,I-JEPA办法在训练前无效地捕捉了低级图像特色,并在对象计数(Clevr/Count)和(大幅度)深度预测(Clevr/Dist)方面优于它们。

 六、可缩放性(Scalability)

模型效率(Model Efficiency) 与以前的办法相比,I-JEPA具备高度的可缩放性。图5显示了对1% ImageNet-1K作为GPU hour的函数的半监督评估。I-JEPA比以前的办法须要更少的计算,并且在不依赖手工数据加强的状况下取得了弱小的性能。与间接应用像素作为指标的MAE等基于重建的办法相比,I-JEPA通过在示意空间中计算指标而引入了额定的开销(每次迭代的工夫大概慢7%)。

缩放数据大小(Scaling data size)。论文还发现I-JEPA受害于更大数据集的预训练。表5显示了在减少训练前数据集的大小(IN1KvsIN22K)时,在语义工作和低水平工作上的迁徙学习性能。当对更大更多样化的数据集进行预训练时,这些概念不同的工作上的迁徙学习性能会进步。缩放模型大小(Scaling model size)。表5还显示,在IN22K上进行预训练时,I-JEPA受害于更大的模型规模。与ViT-H/14模型相比,对ViT-G/16的预训练显著进步了对Place205和INat18等图像分类工作的上游性能。ViTG/16模型并不能进步对低级上游工作的性能。ViT-G/16应用更大的输出补丁大小,这可能对本地预测工作无害。

 七、预测可视化(Predictor Visualizations)I-JEPA中预测器的作用是取上下文编码器的输入,并以地位掩膜令牌为条件,预测掩膜令牌指定的地位上指标块的示意。一个问题是,以地位掩模令牌条件的预测器是否正在学习正确捕捉指标中的地位不确定性。为了定性地钻研这个问题,论文将预测器的输入可视化。在预训练后,论文解冻了上下文编码器和预测器的权值,并依照RCDM框架训练一个解码器,将预测器输入的均匀池映射回像素空间。图6显示了各种随机种子的解码器输入。在样本之间常见的个性示意蕴含在均匀合并预测器示意中的信息。I-JEPA预测器能正确地捕捉到地位的不确定性,并产生具备正确姿势的高级物体部件(例如,鸟的背部和汽车的顶部)。不同样本中不同的品质示意表示法中不蕴含的信息。在这种状况下,I-JEPA预测器抛弃了准确的低级细节和背景信息。

 八、融化(Ablations)

在示意空间中的预测( Predicting in representation space.)。表7比拟了在像素空间和示意空间中计算1% ImageNet-1K时的low-shot性能。论文揣测,I-JEPA的一个要害组成部分是,损失齐全在示意空间中计算,从而使指标编码器可能产生形象的预测指标,从而打消了无关的像素级细节。从表7中能够分明地看出,在像素空间中的预测会导致线性探测性能的显著降落。

掩膜策略(Masking strategy)。在表8中,论文缩小了在I-JEPA预训练过程中所提出的multi-block掩膜策略(如图4所示)中的指标块的数量以及上下文和指标块的规模。论文应用具备各种多块设置的I-JEPA训练了300个周期,并应用线性探针比拟了在1% ImageNet-1K基准测试上的性能。简而言之,论文发现预测几个绝对较大的(语义)指标块,并应用信息充沛的(空间散布的)上下文块是很重要的。

 表6在与其余掩膜策略进行比拟时,也进行了相似的融化。论文与rasterized掩膜策略进行了比拟,其中图像被宰割成四个大象限,其指标是应用一个象限作为上下文来预测其余三个象限。论文还比拟了通常用于基于重建的办法的传统的block和random掩膜策略。在block掩膜中,指标是单个图像块,上下文是图像补体。在random掩膜中,指标是一组随机的(可能是不间断的)图像补丁,而上下文是图像的补体。请留神,在所有思考的掩膜策略中,上下文块和指标块之间没有重叠。所提出的multi-block掩膜策略是I-JEPA学习语义示意的要害。即便切换到传统的block掩膜,ImageNet的性能也会升高超过24%。

 九、论断论文提出了I-JEPA,一种简略而无效的学习语义图像示意的办法,而不依赖于手工制作的数据加强。论文表明,通过在示意空间中进行预测,I-JEPA比像素重建办法收敛速度更快,并学习高语义程度的示意。与基于视图不变性的办法相比,I-JEPA强调了应用联结嵌入架构学习个别示意的门路,而不依赖于手工制作的视图加强。   附录见原文,原文链接:https://arxiv.org/abs/2301.08243