关于transformer:Transformer-再添一员比-Swin-更强的-DiNAT

出品人：Towhee 技术团队张晨、顾梦佳

在视觉畛域，除了惯例 Transformer 的继续倒退，分层的 Transformer 构造也因为其性能和易集成性取得了极大的关注。DiNA 注意力机制是 Neighborhood Attention（NA）的拓展，更加天然、灵便、高效。它能够捕捉更多的全局上下文并以指数形式扩大感触域，而无需额定老本。DiNA Transformer 是基于两种注意力的新型分层视觉模型。相比 NAT、Swin 和 ConvNeXt 等强基线模型，DiNAT 变体带来了显著的改良。应用了 DiNA 的大型模型速度更快，在公开数据集 COCO 的指标检测中当先 Swin 模型 1.5% box AP，在实例宰割中超过 1.3% mask AP。

An illustration of DiNAT’s architecture.

分层构造的 Transformer 模型通常采纳部分留神机制，例如滑动窗口 NA 或 Swin Transformer 的 Shifted Window Self Attention。尽管该策略无效地升高了自注意力的二次复杂度，但部分注意力减弱了自注意力的两个最现实的个性：近程相互依赖建模和全局感触野。因而 DiNAT 首先将输出下采样到原始空间分辨率的四分之一，并通过 4 级 DiNA Transformer 编码器发送它们。特色图被下采样到其空间大小的一半，并在级别之间的通道中加倍。DiNAT 层与大多数 Transformer 类似，模型会每隔一层在部分 NA 和稠密全局 DiNA 之间切换。

相干材料：

代码地址：https://github.com/SHI-Labs/N…
论文链接：Dilated Neighborhood Attention Transformer
更多材料：Dilated Neighborhood Attention Transformer