关于机器学习:带掩码的自编码器MAE最新的相关论文推荐

40次阅读

共计 4551 个字符,预计需要花费 12 分钟才能阅读完成。

1、Heterogeneous Graph Masked Autoencoders

Yijun Tian, Kaiwen Dong, Chunhui Zhang, Chuxu Zhang, Nitesh V. Chawla

https://arxiv.org/pdf/2208.09957

生成式自监督学习(SSL),特地是带掩码自编码器曾经成为最令人兴奋的学习范式之一,并且在图学习方面显示出微小的后劲。然而事实世界的图总是异构的,这带来了三个要害的挑战,现有的办法疏忽了:

  1. 如何捕捉简单的图构造?
  2. 如何整合各种节点属性?
  3. 如何编码不同的节点地位?

这篇论文钻研了异构图上的 SSL 的问题,并提出了一种新的异构图掩码自编码器模型 HGMAE 来解决这些问题。HGMAE 通过两种翻新的掩码技术和三种独特的训练策略捕获全面的图信息。论文通过大量的试验证实,在跨多个数据集的多个工作上,HGMAE 优于比照和最先进的基线。

2、Federated Self-Supervised Contrastive Learning and Masked Autoencoder for Dermatological Disease Diagnosis

Yawen Wu, Dewen Zeng, Zhepeng Wang, Yi Sheng, Lei Yang, Alaina J. James, Yiyu Shi, Jingtong Hu

https://arxiv.org/pdf/2208.11…

在皮肤病诊断中,因为收集的患者私人数据存在于分布式挪动设施上。联邦学习 (FL) 能够应用去中心化数据来训练模型,同时保持数据本地化。现有的 FL 办法假如所有数据都有标签。然而因为标签老本高,医学数据通常没有残缺的标签。自监督学习 (SSL) 办法、比照学习 (CL) 和掩码自编码器 (MAE) 是能够利用未标记数据来预训练模型,而后应用无限标签进行微调。然而联合 SSL 和 FL 是遇到的一个挑战。例如,CL 须要不同的数据,但每个设施只有无限的数据。对于 MAE,尽管基于 ViT 的 MAE 在集中学习中比 CNN 具备更高的准确性,但尚未有人钻研 MAE 在 FL 中应用未标记数据的性能。此外,服务器和客户端之间的 ViT 同步与传统的 CNN 不同。因而,须要设计非凡的同步办法。

这篇论文提出了两个用于标签无限的皮肤病诊断的基于联邦学的自监督学习框架。第一个具备较低的计算成本,实用于挪动设施。第二个具备高精度,适宜高性能服务器。基于 CL 提出了具有特征共享的联邦比照学习(FedCLF)。为不同的比照信息共享特色,而不须要共享原始数据以爱护隐衷。基于 MAE,提出了 FedMAE。常识拆分将每个客户那里学到的全局知识和本地常识离开。仅聚合全局知识以取得更高的泛化性能。对皮肤病数据集的试验表明,所提出的框架比现有技术具备更高的准确性。

3、Multimodal Learning with Channel-Mixing and Masked Autoencoder on Facial Action Unit Detection

Xiang Zhang, Huiyuan Yang, Taoyue Wang, Xiaotian Li, Lijun Yin

https://arxiv.org/pdf/2209.12244

利用多模态数据的能够为面部动作单元 (AU) 检测建设一个持重的模型。然而因为多模态数据的异构性,多模态示意学习成为次要挑战之一。仅通过一个特征提取器很难从多模态中提取相干特色,以前的钻研还没有充沛开掘多模态交融策略的后劲。后期交融通常须要在推理过程中应用所有模态,而前期交融和两头交融减少了特色学习的网络规模。与前期交融的大量工作相比,后期交融摸索通道信息的工作很少。本文提出了一种新的多模态网络,称为多模态通道混合(MCM),能够作为一种预训练模型来学习更加持重的示意并促成多模态交融。在主动面部动作单元检测的上游工作中评估学习的示意。咱们对两个公共数据集(BP4D 和 DISFA)进行了宽泛的试验,评估所提出的多模式框架的有效性和稳健性,结果表明论文的办法相当或优于于最先进的基线办法。

4、Contrastive Masked Autoencoders are Stronger Vision Learners

Zhicheng Huang, Xiaojie Jin, Chengze Lu, Qibin Hou, Ming-Ming Cheng, Dongmei Fu, Xiaohui Shen, Jiashi Feng

https://arxiv.org/abs/2207.13532

论文提出了一种一种新的自我监督预训练方法:比照的带掩码的自编码器 (CMAE)。通过新的设计将比照学习 (CL) 和掩码图像模型 (MIM) 精心对立起来,CMAE 充分利用了它们各自的劣势,并学习了具备强实例可识别性和部分可感知性的示意。CMAE 由两个分支组成,其中在线分支是非对称编码器 - 解码器,指标分支是动量更新编码器。在训练期间,在线编码器从掩码图像的潜在示意中重建原始图像,以学习整体特色。输出残缺图像的指标编码器通过与其在线对应物的比照学习来加强特色可分别性。为了使 CL 与 MIM 兼容,CMAE 还引入了两个新组件。CMAE 在图像分类、语义宰割和对象检测基准上实现了最先进的性能。CMAE-Base 在 ImageNet 上实现了 85.3% 的 top-1 准确率,在 ADE20k 上实现了 52.5% 的 mIoU,别离超过了之前的最佳后果 0.7% 和 1.8%。代码也行将公开。

5、Test-Time Training with Masked Autoencoders

Yossi Gandelsman, Yu Sun, Xinlei Chen, Alexei A. Efros

https://arxiv.org/abs/2209.07522

Test-Time Training 通过对每个测试输出应用自监督优化模型来动静适应新的测试散布。论文应用带掩码自编码器来解决这个单样本学习问题。从教训上讲,这个简略办法进步了散布位移的许多可视基准的泛化能力。实践上,能够用偏差 - 方差衡量来形容这种改良

6、Exploring Target Representations for Masked Autoencoders

Xingbin Liu, Jinghao Zhou, Tao Kong, Xianming Lin, Rongrong Ji

https://arxiv.org/pdf/2209.03917

MAE 已成为自监督视觉表征学习的风行训练范式。这些模型随机屏蔽输出的一部分,并依据指标示意从新构建被屏蔽的局部。这篇论文首先表明:对于学习好的示意来说,认真抉择指标示意不是必须的,因为不同的指标往往派生出类似的行为模型。在这种察看的驱动下,论文提出了多级带掩码的蒸馏管道,应用一个随机初始化的模型作为老师,无需认真设计指标示意就可能无效地训练高容量模型。论文还进一步摸索了应用更大能力的老师模型,取得了具备显著转移能力的学生模型。在不同的分类、迁徙学习、指标检测和语义宰割工作中,论文提出的应用 dBOT 进行常识蒸馏的办法优于以往的自监督办法。

7、SdAE: Self-distillated Masked Autoencoder

Yabo Chen, Yuchen Liu, Dongsheng Jiang, Xiaopeng Zhang, Wenrui Dai, Hongkai Xiong, Qi Tian

https://arxiv.org/pdf/2208.00449

随着基于生成的自监督学习 (SSL) 办法的倒退(如 BeiT 和 MAE),如何通过屏蔽输出图像的随机补丁和重建失落的信息来学习良好的示意曾经引起了越来越多的关注。BeiT 和 PeCo 须要一个“预训练”阶段来生成用于示意补丁的离散码列表。MAE 不须要这个过程,但设置像素作为重建指标可能会在预训练和上游工作之间引入优化差距,良好的重建品质不肯定会导致模型的高形容能力。思考到上述问题,本文提出了一种简略的自蒸馏掩码自编码器网络 SdAE。SdAE 由一个应用编码器 - 解码器构造来重建缺失信息的学生分支和一个生成掩码标记的潜在示意的老师分支组成。通过提供多个信息平衡的屏蔽视图来进步性能,同时也升高了计算复杂度。论文的办法具备很好的泛化性: 在仅 300 轮预训练的状况下,一般的 vito – base 模型在 ImageNet-1k 分类上达到了 84.1% 的微调精度,在 ADE20K 宰割上达到了 48.6 mIOU,在 COCO 检测上达到了 48.9 mAP,大大超过了其余办法。代码在这里 https://github.com/AbrahamYab…

8、MeshMAE: Masked Autoencoders for 3D Mesh Data Analysis

Yaqian Liang, Shanshan Zhao, Baosheng Yu, Jing Zhang, Fazhi He

https://arxiv.org/pdf/2207.10228

自我监督的预训练使 VIT 在不同的数据模式 (如图像和 3D 点云数据) 下实现各种工作。这篇论文摸索了基于 transformer 的 3D 网格数据分析学习范式。将 Transformer 架构利用到新的模式通常是并不简略,论文首先将 Vision Transformer 适应到 3D 网格数据处理,即 mesh Transformer。将一个网格划分为几个不重叠的部分补丁,每个补丁蕴含雷同数量的面,并利用每个补丁中心点的三维地位造成地位嵌入。受 MAE 的启发,还摸索了基于 transformer 构造的 3D 网格数据预训练如何有利于上游 3D 网格剖析工作。随机屏蔽网格的一些补丁,并将损坏的网格输出 mesh Transformer,而后通过重构掩码补丁的信息,网络可能学习网格数据的判断示意。论文将此办法命名为 MeshMAE,它能够在网格剖析工作中(分类和宰割)产生最先进的或相当的性能,这篇论文还进行了全面的融化钻研,以展现办法中要害设计的有效性。

9、Masked Autoencoders that Listen

Po-Yao Huang, Hu Xu, Juncheng Li, Alexei Baevski, Michael Auli, Wojciech Galuba, Florian Metze, Christoph Feichtenhofer

https://arxiv.org/pdf/2207.06405

这篇论文钻研了基于图像的掩模自编码器 (MAE) 在音频谱图的简略扩大。遵循 MAE 中的 Transformer 编码器 - 解码器设计,audio -MAE 首先以高掩码率编码音频谱图,只通过编码器层提供非掩码令牌。而后解码器对带有掩码标记的编码上下文进行从新排序和解码,重建输出谱图。因为音频谱图在部分工夫和频带中高度相干所以在解码器中退出部分窗口留神是无益的。论文还对编码器进行微调,使其在指标数据集上具备较低的掩蔽率。audio – mae 在 6 个音频和语音分类工作上产生了优于其余应用内部监督的预训练的近期模型的最先进的性能。代码和模型将在这里 https://github.com/facebookre…

https://avoid.overfit.cn/post/097b5f48893f462a847fa23dacb91bcc

作者:Monodeep Mukherjee

正文完
 0