还记得 LeCun 被拒的论文 VICReg 吗,明天咱们就来说说它
在深度网络中权重和激活那个更重要?显然是权重,因为咱们能够从权重推导出网络的激活。然而深度网络是非线性嵌入函数;咱们只想要这种非线性嵌入。在这种嵌入根底上进行训练并取得后果(例如分类),咱们要么须要在分类网络中应用线性分类器,要么须要在输入的特色中计算类似度。然而与权重衰减正则化相比,特色嵌入正则化在论文中却很少被提到和应用。通过权重衰减的正则化能够显著影响网络的性能,尤其是在小数据集上[3]。同样,特色嵌入也能够带来重大影响,例如防止模式解体(model collapse)。在本文中,我将介绍两个相干的特色嵌入正则化器:SVMax [1] 和 VICReg [2]。
SVMax 和 VICReg 都是无监督的正则化器,它们都反对监督学习和非 / 自监督学习,在训练期间能够解决独自的小批量,所以不须要对数据集进行其余的预处理。为了对立起见本篇文章将应用雷同的符号来形容两者:咱们有一个网络 N,它承受一个大小为 b 的 mini-batch 输出 并生成一个 d 维嵌入,即咱们有一个输入特色嵌入矩阵 E ∈ R^{b × d},如图 1 所示。矩阵 E 能够从任何网络层中提取,但它通常是从网络的倒数第二层中提取的,即在全局均匀池化层之后。
图 1: 网络 N 在训练过程中,对于规模为 b 的小批量,生成特色嵌入矩阵 E∈R^{b × d}。
SVMax 和 VICReg 都显式地对单层的特色嵌入输入进行了正则化,这样也就隐式地对网络的权重进行了正则化。对于 d 维特色嵌入,SVMax 和 VICReg 都旨在激活所有维度。换句话说,两个正则化器的指标是让每个神经元(维度)同样有可能触发。这样能够使某些维度(神经元)始终处于流动 / 非活动状态而与输出无关,也就防止了模式解体(model collapse)。
模式解体(model collapse):也称为 Helvetica scenario 是 GAN 中提出的感怀。当生成器学习将几个不同的输出 z 值映射到同一输入点时产生的问题。实际上齐全模式解体很少见,但局部模式解体很常见。局部模式解体是指生成器制作蕴含雷同色彩或纹理主题的多张图像,或蕴含同一物体的不同视图的多张图像的场景。
简略形象地来讲,模式解体就是团队中的人员对的指标的了解不同,所以整个团队尽管都在致力的工作,然而都是依照本人了解的指标后退,没有对立的领导所以整个团队都乱成一团了!
SVMax
SVMax [1] 被提出用于度量学习 (Metric Learning) 也就是常说的类似度学习,其中特色嵌入在单位圆上进行归一化,即 l2 归一化。因而,SVMax 旨在将特色嵌入平均地扩散在单位圆上,如图 2(右)所示。在该图中矩形矩阵 E 的奇怪值之间存在显着差别。当特色在单个或几个维度上极化时,如图 2(左)所示,单个或几个奇怪值较大 而其余的小。相同当特色平均扩散时,所有维度都变得沉闷并且所有奇怪值都减少,即均匀奇怪值减少。
图 2:扩散在 2D 单位圆上的特色嵌入。在(a)中,特色在单个轴上极化;主轴(横)轴奇怪值大,副(纵)轴奇怪值小。在(b)中,特色在两个维度上均匀分布;两个奇怪值都比拟大。
SVMax 利用这一察看后果并正则化 E 以最大化其均匀奇怪值。SVMax 的最简略模式如下
图 3:原始的 SVMax 公式。L_r 是应用 SVMax 正则化器之前的原始损失函数,而 s_μ 是要最大化的均匀奇怪值。
其中 s_μ 是要最大化的均匀奇怪值,L_r 是原始损失函数(例如,穿插熵)。
SVMax 进一步利用单位圆(l2 归一化)束缚来建设均匀奇怪值 s_μ 的刚性上限和下限。例如当矩阵 E 的秩为 1,即 Rank(E)=1 时,s_μ 的上限成立。这是模式解体的一个显著案例,其中单个维度始终处于活动状态。在这种状况下,s_μ 的上限等于
图 4:当除第一个(最大的)奇怪值之外的所有奇怪值都为零时,均匀奇怪值的上限成立。s*(E)是当所有其余奇怪值都为零时最大奇怪值的值。
其中 ||E||_1 和 ||E||_∞ 别离是 L-1 范数和 L-Infinity 范数。相似地,SVMax 在 s_μ 上建设一个下限如下
图 5:应用核范数 ||E||_* 和 Frobenius 范数 ||E||_F 建设的均匀奇怪值的下限。
这些界线带来两个益处:(1)很容易调整 SVMax 的均衡超参数 λ(图 3),因为在训练开始之前就晓得 s_μ 的范畴;(2) 均匀奇怪值及其边界作为量化指标来评估训练后的网络——包含非正则化网络。例如,图 6 评估了用不同批量大小训练的四个网络。对于每个网络,均匀奇怪值是在宰割后的测试数据上计算的,即训练后评估。与非正则化网络相比,应用 SVMax 训练的网络显着更好地利用了特色嵌入。
图 6:四种不同特色嵌入(度量学习)网络的均匀奇怪值。X 和 Y 轴示意小批量大小 b 和 CUB-200 测试拆分的特色嵌入的 s_μ。特色嵌入是应用比照损失进行训练的,蕴含了有和没有 SVMax 的后果。程度红线示意 s_μ 的下限。
只管 SVMax 很简略,并且有严格的数学界线,但它的计算成本很高。均匀奇怪值的计算复杂度随着矩阵维数的减少而减少。这就是下一个办法 VICReg 的改良之处,它提供了一种更轻量的计算形式并且也很有成果。
VICReg
VICReg [2] 就是 LeCun 大神被拒的论文了😄,如果特色嵌入不进行归一化时,也能够用于自监督学习。VICReg 有三个概念,但本文将只关注一个概念——方差。该概念旨在激活特色嵌入矩阵 E 中的每个维度。VICReg 计算小批量 E 的标准偏差 (std),如图 7 所示。这会生成一个具备 d 维度的向量,每个维度 示意单个维度的激活。标准差为零的维度是解体维度——维度始终处于关上 / 敞开状态。
图 7: 给定特色嵌入矩阵 E∈R^{b × d},VICReg 计算维数为 d 的标准差向量 S。标准差作为度量来评估维度的激活。
VICReg 中的方差项示意如下:
图 8:VICReg 中的方差项计算特色嵌入矩阵 e 中各 d 维的标准差(std),VICReg 激励标准差为 γ。ϵ 是一个避免数值不稳定性的小标量。
其中 γ 是一个超参数,示意每维所需的标准偏差,ϵ 是避免数值不稳定性的小标量。
这个公式激励标准偏差在每个维度上等于 γ。论文中示意这样做应该能够避免映射到同一向量上的所有输出解体。因为嵌入未归一化,VICReg 无奈对标准偏差项的范畴或界线做出任何假如。VICReg 有两个超参数:与 SVMax 一样的 λ(图 3)和 γ。
基准测试
对于定性的评估,SVMax 和 VICReg 都能够在没有显式负采样的状况下加重模式解体。两个正则化器在不应用训练技巧(如输入量化、梯度裁剪、等)的状况下收敛到十分精确的特色嵌入。两篇论文都来自具备不同计算能力的不同组织。因而,SVMax 评估是比拟原始的,而 VICReg 是绝对较新的。应用线性分类器在解冻的 ImageNet 预训练网络之上进行微调并对这两个正则化器进行自监督学习的基准测试如下:
表 1:应用带有 AlexNet 骨干的自监督学习的定量 SVMax 评估。通过 ImageNet 分类评估预训练网络 N,并在解冻卷积层之上应用线性分类器。对于每一层卷积特色都会在空间上调整大小,直到剩下的维度少于 10K。在 1000 个对象分类工作上训练一个全连贯层,而后是 softmax。
表 2:对应用 VICReg 预训练的 ResNet-50 骨干取得的表征进行评估:(1)基于 ImageNet 解冻表征的线性分类;(2) 在来自 1% 和 10% ImageNet 样本的微调示意之上的半监督分类。这里应用了 Top-1 和 Top-5 的准确率(以 % 为单位)。前 3 名最佳自我监督办法应用下划线强调。
VICReg 更专一于自监督学习和模式解体问题,而 SVMax 应用监督度量学习能够提供进一步评估。尽管 SVMax 在度量学习中没有达到最先进的后果,但在未调整超参数时它提供了卓越的性能。例如当应用大学习率 (lr) 进行训练时,度量学习办法会学习较差的嵌入和发散。SVMax 使这些监督办法更具弹性,尤其是在学习率较大的状况下,如图 9 所示。
图 9:斯坦福 CARS196 的定量评估。X 和 Y 轴别离示意学习率 lr 和 recall@1 性能。
总结
SVMax 和 VICReg 都是很好的论文。两者都是无监督的,并反对各种网络架构和工作。每个都提供了大量的试验。对特色嵌入文献感兴趣的人强烈推荐这些论文。并且 SVMax 和 VICReg 都有 PyTorch 的实现。
与 VICReg 相比,SVMax 论文更容易浏览因为它专一于一个想法。相比之下,VICReg 提供了多个概念,其中一个概念是从另一篇论文 Barlow twins 论文中借用的 [4]
与 SVMax 相比,VICReg 对最近的基准进行了大量的定量评估。FAIR 有的是 GPU :)对于权重衰减与特色嵌入正则化器,SVMax 和 VICReg 都对单层的输入进行了正则化。相比之下权重衰减始终利用于所有网络权重(层)。
然而目前还没看到有一篇论文评估这些特色嵌入正则化器在利用于所有层时的影响。如前所述,权重衰减对 [3] 产生了重大影响,我很想晓得特色正则化器是否也有相似的影响。
援用
[1] Taha, A., Hanson, A., Shrivastava, A. and Davis, L., 2021. SVMax: A Feature Embedding Regularizer.
[2] Bardes, A., Ponce, J. and LeCun, Y., 2021. Vicreg: Variance-invariance-covariance regularization for self-supervised learning.
[3] Power, A., Burda, Y., Edwards, H., Babuschkin, I. and Misra, V., 2021. Grokking: Generalization beyond overfitting on small algorithmic datasets.
[4] Zbontar, J., Jing, L., Misra, I., LeCun, Y. and Deny, S., 2021. Barlow twins: Self-supervised learning via redundancy reduction.
作者:Ahmed Taha
最初如果你对加入 Kaggle 较量感兴趣,请私信我,邀你进入 Kaggle 较量交换群