关于神经网络:Multimodal-Multitask-Masked-Autoencoder一种简单灵活且有效的-ViT-预训练策略

79次阅读

共计 1093 个字符，预计需要花费 3 分钟才能阅读完成。

MAE 是一种应用自监督预训练策略的 ViT，通过遮蔽输出图像中的补丁，而后预测缺失区域进行子监督的与训练。只管该办法既简略又无效，但 MAE 预训练指标目前仅限于繁多模态——RGB 图像——限度了在通常出现多模态信息的理论场景中的利用和性能。

在新论文 MultiMAE: Multi-modal Multi-task Masked Autoencoders 中，来自瑞士洛桑联邦理工学院 (EPFL) 的团队提出了 Multi-modal Multi-task Masked Autoencoders (MultiMAE)，也是一种预训练策略，能够对掩码进行自动编码解决并执行多模态和多任务的训练。MultiMAE 应用伪标签进行训练，使该框架实用于任何 RGB 数据集。

MultiMAE 的设计基于传统的 Masked Autoencoding，但在两个要害方面有所不同：

1、除了 RGB 图像，它还能够抉择承受输出中的附加模态信息（因而是“多模态”）

2、其训练指标相应地包含预测除 RGB 图像之外的多个输入（因而称为“多任务”）。

从架构上看，MultiMAE 的编码器是一个 ViT，但每个额定的输出模态都有补丁的投影层和一个带有可学习的额定全局令牌嵌入，相似于 ViT 的类令牌。所以仅加载所需的输出投影并疏忽所有其余投影的 MultiMAE 预训练权重能够间接用于规范单模态 ViT。

为了执行语义宰割补丁投影，论文的作者用学习的 64 维的类嵌入替换每个类索引。并且仅对可见标记的随机子集进行编码，这样能够显著的减速计算和缩小内存应用，并且应用了具备三种密集输出模态的 MultiMAE 多模态预训练。每个工作应用一个独自的解码器，因而解码器的计算随着工作的数量线性扩大，并且只减少了最小的老本。

在他们的钻研中，图像分类、语义宰割和深度预计这三个工作上对 MultiMAE 进行了预训练，并在 ImageNet-1K 上进行伪标记，而后在 ImageNet、ADE20K、Taskonomy、Hypersim 和 NYUv2 数据集上进行微调。

结果表明，当只应用 RGB 进行微调时，MultiMAE 保留了惯例 MAE 的劣势，并且它还能够利用深度等其余模态，例如应用伪标记深度或语义宰割来进步性能。MultiMAE 预训练策略能够显着进步迁徙性能。

该项目标在 GitHub 上也公开了代码、预训练模型和交互式可视化。论文 MultiMAE: Multi-modal Multi-task Masked Autoencoders 公开材料汇总地址如下：

https://www.overfit.cn/post/93cb0afee93c4e70bf67683f3845ddef

作者：Hecate He

正文完