关于计算机视觉:视觉模型-ConvNeXt-V2结合纯卷积与MAE

47次阅读

共计 554 个字符，预计需要花费 2 分钟才能阅读完成。

出品人：Towhee 技术团队王翔宇、顾梦佳

近年来以 ConvNeXt 为代表的古代 ConvNets 在各种视觉场景中都体现出了弱小的性能。尽管这些模型最后是为应用 ImageNet 标签进行监督学习而设计的，但它们也可能受害于自监督学习技术，例如掩码主动编码器 (MAE)。为了更好地联合 ConvNeXt 和 MAE，ConvNeXt V2 提出了一个改良的网络架构，将全局响应归一化 (GRN) 层增加到 ConvNeXt 架构中以加强通道间特色竞争。它显着进步了纯 ConvNet 在各种辨认基准上的性能，包含 ImageNet 分类、COCO 检测和 ADE20K 宰割。

FCMAE framework

ConvNeXt V2 将 ConvNeXt 作为骨干网络，胜利在卷积网络中防止从遮掩的区域复制粘贴信息。它将可见的像素点看作了一个图像序列，用相似于 3D 视觉中的稠密卷积来进行解决。另外，模型抉择了一个轻量的 ConvNeXt 模块。为了重建指标，ConvNeXt V2 应用了 MSE 来计算指标图像，该损失在被遮掩区域进行计算。

相干材料：

代码地址:https://github.com/facebookre…
论文链接：https://arxiv.org/abs/2301.00…
更多材料：https://zhuanlan.zhihu.com/p/…

正文完