关于计算机视觉:SparK-用稀疏掩码为卷积设计-Bert-预训练

77次阅读

共计 774 个字符，预计需要花费 2 分钟才能阅读完成。

出品人：Towhee 技术团队顾梦佳

稠密掩码建模 (SparK) 是第一个 BERT-style 的预训练方法，无需批改骨干即可间接在任何卷积网络上，克服了它们无奈解决不规则的掩码输出。该框架遮蔽图像的一部分并学习复原它，通过预训练卷积网络编码器实现分层掩码图像建模。SparK 能够被间接用于任何卷积模型，无需骨干批改。它在经典 (ResNet) 和古代 (ConvNeXt) 的卷积模型上进行了试验，结果表明 SparK 可能在三个上游工作上以大幅超过最先进的比照学习和基于 Transformers 的掩蔽建模。尤其在指标检测和实例宰割工作上，该框架带来的的改良更为显著，证实了所学特色具备弱小可迁移性。

Sparse masked modeling with hierarchySparK

确定并克服了将 BERT 式预训练或掩码图像建模的胜利扩大到卷积网络 (convnet) 的两个要害阻碍：卷积运算无奈解决不规则的、随机掩码的输出图像，BERT 预训练的繁多尺度性质与 convnet 的层次结构不统一。为了解决第一个问题，SparK 翻新地提出将稠密卷积用于 2D 掩膜建模，并应用稠密卷积进行编码。它将未屏蔽像素视为 3D 点云的稠密体素。对于后一个问题，SparK 开发了一个分层解码器来从多尺度编码特色重建图像。为了预训练分层编码器，SparK 框架采纳了 UNet 格调的架构来解码多尺度稠密特色图，其中所有空地位都是充斥掩码嵌入。预训练后，只有编码器会被用于上游工作。

相干材料：
代码地址：https://github.com/keyu-tian/…
论文链接：Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling
更多材料：北大 / 字节 / 牛津提出 SparK——卷积网络的 BERT 设计：稠密和分层掩码建模

正文完