关于图像处理:EfficientFormer-提升速度的同时保持性能使-ViT-在移动端成为可能

出品人：Towhee 技术团队顾梦佳

因为大量的参数和其模型设计（注意力机制），基于 ViT 的模型通常比轻量级卷积网络慢几倍。因而，为实时应用程序部署 ViT 特地具备挑战性，尤其是在资源受限的硬件（如挪动设施）上。为了让 transformers 同时领有高性能和速度，EfficientFormer 从新扫视了 ViT 模型中应用的网络架构和运算符， 引入一个维度统一的纯 Transformer 作为设计范例。 大量试验表明 EfficientFormer 系列模型在挪动设施上的性能和速度方面具备优越性。其中最快的模型 EfficientFormer-L1 在公开的图像数据集 ImageNet-1K 上实现了 79.2% 的 top-1 精度，在 iPhone 12 上的运行速度与 MobileNetV2×1.4 一样快。而最大的模型 EfficientFormer-L7 也可能以 7.0 毫秒的提早取得 83.3% 的准确率。EfficientFormer 证实正确设计的变压器能够使模型在放弃高性能的同时，在挪动设施上达到极低的提早。

Overview of EfficientFormer 基于提早剖析，EfficientFormer 的模型设计齐全基于 Transformers。该网络首先用一个卷积骨干用作 patch embedding，而后蕴含了一组 MetaBlock (MB)。其中 MB4D 和 MB3D 领有不同的 token mixer 配置，即以维度统一的形式排列的部分池化或全局多头自注意力。

相干材料：

代码地址：https://github.com/snap-resea…
论文链接：EfficientFormer: Vision Transformers at MobileNet Speed
更多材料：EfficientFormer：MobileNet 速度下的视觉 Transformer