乐趣区

关于人工智能:带掩码的自编码器MAE在各领域中的应用总结

机器学习算法应该了解数据从中提取有用的特色才可能解决简单的工作。通常训练泛化模型须要大量带正文的数据。这个是十分费时费力的,并且个别状况下都很难进行。

所以各种基于带掩码的自编码器技术就呈现了,这种技术容许在未标记的数据上训练模型,并且取得的特色可能适应常见上游工作

  • BERT — 最早的遮蔽模型,用于文本工作 1810.04805
  • MAE — 图像,能够说它将 BERT 的辉煌延长到了视觉 2111.06377
  • M3MAE — 图像 + 文字 2205.14204
  • MAE that listen — 音频 2207.06405
  • VideoMAE — 视频 2203.12602
  • TSFormer — 工夫序列 2107.10977
  • GraphMAE — 图 2205.10803

从下面咱们能够看到 Masked Autoencoder 简直笼罩了大部分的次要钻研畛域是一种弱小而简略的技术,它应用基于 transformer 的模型进行预训练失去高水平的数据表示,这对在任何上游工作 (迁徙学习,微调) 上采纳该模型都很有帮忙。

自监督学习是一种不须要任何标签就能取得数据信息示意的办法。规范的自监督学习技术通常应用高级数据加强策略。然而对于文本、音频、大脑信号等模式来说,如何抉择加强策略并且保障策略的合理性是一个十分辣手的问题

而 Masked Autoencoder 不应用这种策略。咱们只须要有数据,并且是大量的数据还有必要的计算资源即可。它应用重建的形式依据被局部遮蔽的样本来预测残缺的数据。如果遮蔽了大概 70% 的数据,模型还可能复原数据的话,则阐明模型学习到了数据的良好的高级示意

MAE 是如何工作的?

MAE 的工作原理非常简单。看看上面的图片:

训练前须要屏蔽一半以上的 Patch(比方 75%)。编码器接管可见的 Patch 块。在编码器之后,引入掩码标记,用一个小(绝对于编码器小)解码器对全副编码的 Patch 和掩码标记进行解码,重建原始图像。上游的工作中,编码器的输入作为特色,上游工作不须要进行遮蔽。

个别流程如下:

  • 获取数据样本(图像)。
  • 对样本进行区域划分(patches for image, word for text 等)
  • 利用高比率的随机遮蔽(论文中应用 75%)
  • 只保留可见的局部,并将它们输出编码器。
  • 应用下面的掩码进行填充,将编码器的输入和遮蔽进行合并并且保留原始程序,作为解码器的输出。
  • 解码器来负责重建遮蔽。

就是这么一个简略的流程就可能从数据中提取有意义的特色😍

对于上游的工作,只应用预训练的编码器,因为它学习数据的有用示意。

💡这里须要阐明的是,因为由 transformer 不依赖于数据的长度,所以在上游应用时能够将残缺的样本输出到模型中,也就是说上游的工作不须要进行掩码遮蔽了。

MAE 为什么能够在不同的畛域中应用?

MAEs 能够很容易地适应不同的数据模式。上面图是在视频和音频畛域中应用 MAE 的流程。如果你是这个方向的从业者,试试它吧。

音频的频谱图的 MAE

上面的阐明来自论文

咱们摸索了将 MAE 简略扩大到音频数据的办法。咱们的 audio – mae 学习从音频录音中重建暗藏的声谱图 Patch,并在 6 个音频和语音分类工作中实现了最先进的性能。得出了一些乏味的察看后果:1、一个简略的 MAE 办法对音频谱图的成果出奇的好。2、在解码器中学习具备部分自我留神的更强的示意是可能的。3、掩蔽能够利用于训练前和微调,进步精度和缩小训练计算

视频的 MAE

为了进行视频自监督学习,VideoMAE 应用了一个遮蔽的自编码器和一个一般的 ViT 骨干。与比照学习办法相比,VideoMAE 有更短的训练工夫(3.2 倍减速)。在将来对于自监督视频训练的钻研中,VideoMAE 可能是一个很好的终点。

后果展现

最值得关注的后果是所有这些 MAE 技术都在他们相应的畛域击败了 SOTA。

训练的细节

这些论文中也都蕴含了训练的细节的信息,这对于咱们进行具体钻研十分有帮忙。例如损失函数 (MSE) 仅在不可见的令牌上计算,剩下的就是一些训练的参数:

这是 MAE 的

这是视频的

长处和毛病

长处

能够看到,MAE 这种形式简直实用于任何模式的工作

毛病

这种办法的骨干都是 transformer,(目前)没有其余的骨干,并且它须要大量的数据和计算资源。

总结

这是一个十分弱小的技术,能够用于任何畛域,并且还可能起到很好的成果。

TSFormer 尽管应用了这个办法然而也没有公开代码,并且成果也不太好,然而咱们是否能够利用 MAE,将多元工夫序列示意为音频,并提供雷同的预训练呢?这可能对用大量标记数据解决上游工作有很大帮忙。

是否能够减少额定的损失函数和限度。这样就能够对训练模型进行重构,甚至做一些聚类的工作。

除此以外还有更多的论文咱们能够参考:

  • MultiMAE(2204.01678): 多模态多任务 MAE。
  • 联合比照学习 (augs) 与 MAE:Contrastive Masked Autoencoders are Stronger Vision Learners 2207.13532

其实 MAE 的呈现不仅仅是将 BERT 在 NLP 中的成就扩大到了 CV:

  • iGPT 是最早提出(目前我所晓得的,欢送斧正)把图像马赛克掉,变成一个个色块,数量一下就缩小了,能够像 NLP 一样欢快地输出到 Transformer 了,然而会存在训练预测不统一的问题。
  • ViT 的预训练方法,mask 掉 50% 的 patch,预测 patch 的 mean color
  • BEiT 用了一个 dVAE 对 patch 进行离散化,mask 40% 的 patch

但他们其实都没有了解一个问题,就是到底是什么起因导致视觉和语言用的 masked autoencoder 不一样。而 MAE 的胜利就在于这个问题想分明,并且给出了解决方案。

所以我集体认为 MAE 是一个很好的开始,并且它曾经证实了畛域内的常识 + 简略的办法可能发明出很好的模型。

https://avoid.overfit.cn/post/1cc2e21d8fa74edc8ef2d1b9ee64ebed

作者:Alexander Kovalev

退出移动版