关于计算机视觉:SparK-用稀疏掩码为卷积设计-Bert-预训练

47次阅读

共计 774 个字符,预计需要花费 2 分钟才能阅读完成。

出品人:Towhee 技术团队 顾梦佳

稠密掩码建模 (SparK) 是第一个 BERT-style 的预训练方法,无需批改骨干即可间接在任何卷积网络上,克服了它们无奈解决不规则的掩码输出。该框架遮蔽图像的一部分并学习复原它,通过预训练卷积网络编码器实现分层掩码图像建模。SparK 能够被间接用于任何卷积模型,无需骨干批改。它在经典 (ResNet) 和古代 (ConvNeXt) 的卷积模型上进行了试验,结果表明 SparK 可能在三个上游工作上以大幅超过最先进的比照学习和基于 Transformers 的掩蔽建模。尤其在指标检测和实例宰割工作上,该框架带来的的改良更为显著,证实了所学特色具备弱小可迁移性。

Sparse masked modeling with hierarchySparK

确定并克服了将 BERT 式预训练或掩码图像建模的胜利扩大到卷积网络 (convnet) 的两个要害阻碍:卷积运算无奈解决不规则的、随机掩码的输出图像,BERT 预训练的繁多尺度性质与 convnet 的层次结构不统一。为了解决第一个问题,SparK 翻新地提出将稠密卷积用于 2D 掩膜建模,并应用稠密卷积进行编码。它将未屏蔽像素视为 3D 点云的稠密体素。对于后一个问题,SparK 开发了一个分层解码器来从多尺度编码特色重建图像。为了预训练分层编码器,SparK 框架采纳了 UNet 格调的架构来解码多尺度稠密特色图,其中所有空地位都是充斥掩码嵌入。预训练后,只有编码器会被用于上游工作。

相干材料:
代码地址:https://github.com/keyu-tian/…
论文链接:Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling
更多材料:北大 / 字节 / 牛津提出 SparK——卷积网络的 BERT 设计:稠密和分层掩码建模

正文完
 0