关于计算机视觉:EfficientFormerV2-加速-ViT更高效的移动端视觉模型

40次阅读

共计 649 个字符，预计需要花费 2 分钟才能阅读完成。

EfficientFormerV2 减速 ViT，更高效的挪动端视觉模型出品人：Towhee 技术团队顾梦佳

EfficientFormerV2 仿造卷积构造的 MobileNet，对 transformers 进行一系列针对挪动端减速的设计和优化。模型的参数量和提早对资源受限型的硬件来说至关重要，因而 EfficientFormerV2 联合了细粒度联结搜寻策略，提出了一种具备低提早和大小的高效网络。该网络在同等量级参数量和提早下，其性能在公开的图像数据集 ImageNet 的验证集上可能比 MobileNetV2 高 4%。

EfficientFormerV2Architecture

EfficientFormerV2 全面钻研了混合视觉骨干，并验证了对于端侧更加敌对的网络结构设计。此外，在前一个版本的根底上，它进一步提出了在大小和速度上的细粒度联结搜寻，并取得了轻量级和推理速度超快的模型。EfficientFormerV2 遵循了惯例的 ViT 架构。它采纳雷同卷积核大小的深度可拆散卷积替换作为 token mixer 的均匀池化层，这样既不会带来提早开销，又能进步性能。此外,EfficientFormerV2 在前馈网络中注入了部分信息建模层，将原来的池化层替换成 BottleNeck 的模式。

相干材料：