关于计算机视觉:MixMIM-创建混合图像提出新型掩码方案

2次阅读

共计 771 个字符,预计需要花费 2 分钟才能阅读完成。

出品人:Towhee 技术团队 顾梦佳

商汤和港中文联结提出一种简略但无效的掩码图像建模(MIM)办法 MixMIM,通过 创立混合图像 利用 BEiT 和 MAE 的长处,又防止了它们的局限性。MixMIM 能够无效地学习高质量的视觉示意,也能被广泛应用于预训练的层次化视觉 Transformer,比方 Swin Transformer、PVT 等。MixMIM 还摸索了轻量级架构,将 Swin Transformer 批改为预训练和常识迁徙的编码器。因为层次结构,MixMIM 实用于各种上游工作,比方图像分类、指标检测、语义宰割工作。试验结果表明,在模型尺寸和 FLOPs 类似的状况下,MixMIM 在宽泛的上游工作上始终优于 BEiT 和 MAE,包含公开图像数据集 ImageNet、iNaturalist 和 Places 上的图像分类,COCO 上的指标检测和实例宰割,以及 ADE20K 上的语义宰割。

Overview of MixMIM

给定训练集中的两幅随机图像,MixMIM 应用随机混合掩码创立一幅混合图像作为输出。模型会训练一个层次化 ViT 来重建两幅原始图像,用于学习视觉示意。不同于传统办法中用非凡的掩码符号替换输出图像的掩码 token,MixMIM 抉择用另一个图像的视觉 token 替换掩码 token。另外,MixMIM 仍然采纳了编码器 - 解码器的结构设计。编码器解决混合图像以取得两个局部掩蔽图像的暗藏示意,而解码器则用于重建两个原始图像。

相干材料:
代码地址:https://github.com/Sense-X/Mi…
论文链接:MixMIM: Mixed and Masked Image Modeling for Efficient Visual Representation Learning
更多材料:性能超 MAE、BEiT 和 MoCoV3!商汤 & 港中文提出 MixMIM:在混合图像上进行 MIM

正文完
 0