关于计算机视觉:EfficientFormerV2-加速-ViT更高效的移动端视觉模型

3次阅读

共计 649 个字符,预计需要花费 2 分钟才能阅读完成。

EfficientFormerV2 减速 ViT,更高效的挪动端视觉模型出品人:Towhee 技术团队 顾梦佳

EfficientFormerV2 仿造卷积构造的 MobileNet,对 transformers 进行一系列针对挪动端减速的设计和优化。模型的参数量和提早对资源受限型的硬件来说至关重要,因而 EfficientFormerV2 联合了细粒度联结搜寻策略,提出了一种具备低提早和大小的高效网络。该网络在同等量级参数量和提早下,其性能在公开的图像数据集 ImageNet 的验证集上可能比 MobileNetV2 高 4%。

EfficientFormerV2Architecture

EfficientFormerV2 全面钻研了混合视觉骨干,并验证了对于端侧更加敌对的网络结构设计。此外,在前一个版本的根底上,它进一步提出了在大小和速度上的细粒度联结搜寻,并取得了轻量级和推理速度超快的模型。EfficientFormerV2 遵循了惯例的 ViT 架构。它采纳雷同卷积核大小的深度可拆散卷积替换作为 token mixer 的均匀池化层,这样既不会带来提早开销,又能进步性能。此外,EfficientFormerV2 在前馈网络中注入了部分信息建模层,将原来的池化层替换成 BottleNeck 的模式。

相干材料:

  • 代码地址:https://github.com/snap-resea…
  • 论文链接:https://arxiv.org/abs/2212.08059
  • 更多材料:https://zhuanlan.zhihu.com/p/…
正文完
 0