出品人:Towhee 技术团队 张晨、顾梦佳
掩码图像建模(MIM)通常会将输出 token 的随机子集替换为一个非凡的掩码符号,目标是从损坏的图像重建原始图像 token。SimMIM 系统分析了该办法中的次要组件,从而提出了无需非凡设计、更为简略的掩码图像框架。将简化后的 MIM 利用到 ViT-B,其预训练模型在公开的图像数据集 ImageNet-1K 上可能实现 83.8% 的 top-1 微调精度,胜利超过之前最优模型。当应用更大模型 SwinV2-H 时,SimMIM 仅需用 ImageNet-1K 训练便能实现 87.1% 的 top-1 精度。SimMIM 还促成了 3B 模型 (SwinV2-G) 的训练,缩小 40 倍的训练数据也能让模型在四个具备代表性的视觉基准上达到最先进的程度。
An illustration of SimMIM.
SimMIM 发现在掩码图像建模中,每个组件的简略设计都显示出十分强的表征学习能力。当输出图像的随机掩码具备适度的掩码块大小时(例如 32),可能产生弱小的前置工作。间接回归预测 RGB 值的原始像素,其性能也可能媲美简单设计的 patch 分类办法。另外,钻研发现像线性层一样的轻量预测头的性能并不比多层的差。SimMIM 最终采纳 Swin-B 作为默认 backbone,通过轻量级单层头预测随机掩码块的原始像素值,并应用简略的 L1 损失进行学习。
相干材料:
代码地址:https://github.com/microsoft/SimMIM
论文链接:SimMIM: A Simple Framework for Masked Image Modeling
更多材料:SimMIM | 续 Kaiming 的 MAE 后,MSRA 提出更简略的掩码图像建模框架!