关于人工智能:自监督表征预训练之掩码图像建模CAE-及其与-MAEBEiT-的联系

起源：https://zhuanlan.zhihu.com/p/531243540

自监督表征预训练 (Self-supervised representation pretraining)，次要有两大类办法。一类是，比照学习 (Contrastive self-supervised representation pretraining)，另外一类是，掩码图像建模 (Masked image modeling，MIM)。我先次要讲讲后一种办法。次要讲讲咱们的工作 Context Autoencoder (CAE)，和 MAE、BEiT 的一些分割，以及和比照学习的比拟。

Readpaper link：https://readpaper.com/paper/4588984690984099841

arXiv link: https://arxiv.org/abs/2202.03026

Official code: https://github.com/PaddlePaddle/VIMER/tree/main/CAE

Collection of official and third-party implementations: https://github.com/Atten4Vis

一、定义和指标

掩码图像建模 (MIM) 是指：将图像中一些图像块掩码掉，用其余剩下的可见的图像块 (Visible patches) 来预测被掩码掉的图像块 (Masked patches)。自监督表征预训练，把 MIM 这个工作当成预训练任务，来训练图像编码器 (Encoder)，冀望编码器编码的表征 (Representation) 蕴含丰盛的语义信息。

二、设计准则

如何设计预训练网络结构呢？有这么几点须要思考。

首先，如后面所讲，这个构造得显式的蕴含须要学习的表征编码器。

其次，设计解决掩码图像建模工作的构造模块，掩码图像建模工作，与其余工作 (如检测、宰割等) 一样，只是一个视觉工作，所以相似检测，须要一个相应的工作构造模块。

再次，心愿预训练失去编码器的表征能力尽量强，为此，心愿预训练过程中，编码器只负责表征学习的工作，而且表征学习只由编码器负责。为此，编码器只解决可见图像块，而解决 MIM 工作的时候，不再批改可见图像块的表征，冀望 拆散编码和 MIM 工作。

最初，既然咱们的目标是通过预训练学习编码器，以失去语义信息丰盛的表征，咱们是不是能够对表征做些特地的解决？为此，咱们把掩码图像建模工作变成掩码表征建模 (Masked representation modeling) 工作，在编码表征空间里，用可见图像块的表征来预测掩码图像块的表征。

三、Context Autoencoder (CAE) 构造

基于以上思考，咱们设计了 Context Autoencoder，如下：

(a) 把可见图像块输出到编码器中，抽取可见图像块的表征。(b) 在编码表征空间中做预测，使得掩码图像块的表征和从可见图像块预测失去表征统一。(c) 将掩码图像块的表征输出到解码器中，预测掩码图像块。

通过这样的设计，咱们心愿编码模块 (a) 和工作解决局部 (b，c) 拆散；把掩码图像建模工作转成掩码表征建模工作 (b)，在编码表征空间中，实现预测工作。

直观解释

这三步跟人类实现 MIM 工作是相似的。步骤 (a)：从可见的图像块来辨认图像的语义内容，如 dog，用表征来示意；步骤 (b)：猜想掩码图像块是什么，比方是 dog 还是 grass，依然用表征来示意；步骤 (c)：猜测出掩码图像块的具体内容。

四、掩码表征建模的重要性

从两个角度剖析，一是试验后果 (ViT base，300 epochs)，Alignment 起了就很大的作用。其中没有 Alignment 的后果比 BEiT 和 MAE 的后果高，阐明了拆散的重要性。有了 Alignment，后果更高，阐明了在编码表征空间做预测的重要性。

二是去掉了 Alignment，也就是不能确保掩码图像块的表征和从可见图像块预测失去表征统一。咱们的是通过重建来验证：把图像的所有图像块输出到编码器，而后间接把编码表征输出解码器里重建图像。结果显示了 Alignment 的重要性。

五、与 MAE 和 BEiT 的分割

可能有些 subtle，欢送探讨。

先看看 BEiT (Bidirectional Encoder representation from Image Transformers)。BEiT 把可见图像块的色彩信息和掩码图像块掩码 token (不蕴含掩码图像块的色彩信息)，输出到 ViT 中，而后 ViT 输入通过一个线性层来做预测。只管能够把 ViT 称为编码器，不过，ViT 负责了两项工作：表征编码，以及预测掩码图像块的工作，没有把这两个工作拆散。换句话中，ViT 也在不停的解决工作 (也就是预测工作)。正因为如此，BEiT 预训练失去 ViT 语义表征能力个别，从其 linear probing 能够看到。

上面看看 MAE (Masked AutoEncoder)。MAE 只把可见图像块输出到编码器中，而后编码器的输入的可见图像块的表征和掩码图像块的掩码 token，输出到由 self-attention 组成的解码器中去。这样的构造比 BEiT 有了提高，然而解码器中可见图像块的表征可能会进一步更新，所以表征学习的工作没有由编码器齐全负责，所以 MAE 失去的编码器能力也不足够好。

相比拟，CAE 尽量做到编码和 MIM 工作拆散。除此，CAE 在编码表征空间中做预测。比拟总结如下：

预训练失去编码器，在 ImageNet-1K 上的 probing 比拟验证了以上剖析

六、与比照自监督表征预训练比拟

这里不做具体介绍比照学习的办法，一个典型的构造如下。重要特点是，比拟随机裁剪的图像块。

思考到随机裁剪的性质，发现原图两头局部的像素有更大概率落到裁剪的图像块中 (如下图)，为了使得同一图像裁剪的图像块抽取的表征尽量类似，咱们猜想：比照办法次要学到了图像两头物体的信息。比方在 ImageNet-1K 上，次要学到 1000 类的信息。

相比拟，CAE 和 MIM 能够学到图像的所有图像块的信息。通过可视化，也验证了剖析。这是 MIM 比比照办法好的起因之一吧。

七、上游工作比拟

ADE 上宰割以及 COCO 物体检测实例宰割，在 ViT (base) 和 ViT (large) 上的后果，验证了咱们的剖析，CAE 高于 MAE 和 BEiT，也高于比照学习。

八、后记

最近看到了炽热的 Geoffrey Hinton 最新访谈的文章

有几个点跟 CAE 的设计准则很有关联。
第一点，在编码表征空间做预测，就是把掩码图像建模转成掩码表征建模。CAE 构造中 (b) 局部。

第二点，BEiT 中 ViT 是在不停的预测掩码图像块的信息，MAE 的 decoder 局部同时做表征学习和解决 MIM 工作。

第三点，Hinton 在访谈中，谈到了对于他和 Suzanna Becker 的比照学习的文章，说不 work 的起因有点 subtle，没有开展讲。或者起因跟咱们的剖析相似。

已建设深度学习公众号——FightingCV，关注于最新论文解读、基础知识坚固、学术科研交换，欢送大家关注！！！

举荐退出 FightingCV交换群，每日会发送论文解析、算法和代码的干货分享，进行学术交流，加群请增加小助手 wx：FightngCV666，备注： 地区 - 学校（公司）- 名称

面向小白的顶会论文外围代码库：https://github.com/xmu-xiaoma666/External-Attention-pytorch

面向科研小白的 YOLO 指标检测库：https://github.com/iscyy/yoloair

面向小白的顶刊顶会的论文解析：https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading

为感激各位老粉和新粉的反对，FightingCV 公众号 将在 9 月 10 日包邮送出 4 本 《深度学习与指标检测：工具、原理与算法》 来帮忙大家学习，赠书对象为当日浏览榜和分享榜前两名。想要参加赠书流动的敌人，请增加小助手微信FightngCV666（备注“城市 - 方向 -ID”），不便分割取得邮寄地址。

本文由 mdnice 多平台公布

关于人工智能:自监督表征预训练之掩码图像建模CAE-及其与-MAEBEiT-的联系

自监督表征预训练之掩码图像建模：CAE 及其与 MAE、BEiT 的分割

【技术交换】

【赠书流动】

Just My Socks（注册教程内含优惠码）

关于人工智能:自监督表征预训练之掩码图像建模CAE-及其与-MAEBEiT-的联系

自监督表征预训练之掩码图像建模：CAE 及其与 MAE、BEiT 的分割

【技术交换】

【赠书流动】

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）