咱们都晓得Transformers绝对于CNN的架构效率并不高,这导致在一些边缘设施进行推理时提早会很高,所以这次介绍的论文EfficientFormer号称在准确率不升高的同时能够达到MobileNet的推理速度。
Transformers是否在取得高性能的同时,跑得和MobileNet一样快?为了答复这个问题,作者首先回顾了基于vit的模型中应用的网络架构和运算,并阐明了一些低效的设计。而后引入一个维度统一的纯Transformer(没有MobileNet块)作为设计范例。最初以提早为指标进行优化设计,取得一系列称为EfficientFormer的最终模型。最初还设计了EfficientFormerV2。
提早剖析
作者在论文中发现:
1、内核大、步幅大的补丁嵌入是挪动设施上的速度瓶颈。
2、统一的特色维度对于令牌混合器的抉择很重要。MHSA不肯定是速度瓶颈。
3、convn - bn比LN (GN)-Linear更有利于提早,对于提早的升高,精度的小损失是能够承受的。
4、非线性的提早取决于硬件和编译器。
EfficientFormer整体架构
该网络由补丁嵌入(PatchEmbed)和元Transformer块堆栈组成,示意为MB:
X0为批大小为B,空间大小为[H, W]的输出图像,Y为冀望输入,m为块总数(深度)。MB由未指定的令牌混合器(TokenMixer)组成,后跟一个MLP块:
Xi|i>0是第i MB的两头特色。阶段Stage(或S)被定义为几个MetaBlocks的堆栈。该网络包含4个阶段。在每个阶段中,都有一个嵌入操作来投影嵌入维数和下采样令牌长度,示意为嵌入,如上图所示。
也就是说effentformer是一个齐全基于transformer的模型,没有集成MobileNet构造。
Dimension-Consistent设计
网络从四维划分开始,前期进行三维划分。首先,输出图像由stem层进行解决,这是两个3 × 3,步幅为2的卷积作为patch嵌入:
其中Cj是第j级的通道号(宽度)。而后网络从MB4D开始,应用简略的Pool mixer提取低级特色:
式中,ConvB,G示意是否有BN和GeLU追随卷积。在解决完所有MB4D块后,执行一次重塑以转换特色大小并进入3D分区。MB3D应用传统的ViT:
式中,LinearG示意线性后接GeLU, MHSA为:
其中,Q, K, V别离示意查问,键和值,b是参数化的作为地位编码的注意力偏差。
在定义了总体体系结构之后,下一步作者就开始搜寻高效的体系结构。
以提早为指标架构优化
定义了一个搜寻高效模型的超级网络MetaPath (MP),它是一些可能块的汇合:
其中I示意单位门路。
在网络的S1和S2中,每个区块能够抉择MB4D或I,在S3和S4中,每个区块能够抉择MB3D、MB4D或I。
在最初两个阶段只启用MB3D的起因有2个:1、因为MHSA的计算绝对于令牌长度呈二次增长,因而在晚期阶段将其集成将大大增加计算成本。2、网络的晚期阶段捕捉低级特色,而前期阶段学习长期依赖关系。
搜寻空间包含Cj(每个Stage的宽度),Nj(每个Stage的块数,即深度)和最初N个利用MB3D的块。
搜索算法应用Gumbel Softmax采样对超级网络进行训练,以取得每个MP内块的重要性得分:
其中评估MP中每个块的重要性,因为它示意抉择一个块的概率。 ~ U(0,1)保障摸索。对于S1和S2, n∈{4D, I},对于S3和S4, n∈{4D, 3D, I}。
最初通过收集不同宽度的MB4D和MB3D的设施上提早(16的倍数),构建一个提早查找表。
也就是说EfficientFormer的架构不是通过人工设计的,而是通过NAS(Neural Architecture Search)搜寻进去的。作者通过查找表计算每个动作产生的提早,并评估每个动作的准确率降落。依据每提早精度降落(-%/ms)抉择动作。这个过程迭代地执行,直到达到目标提早。(细节见论文附录)
后果展现
ImageNet上与宽泛应用的基于cnn的模型相比,EfficientFormer在准确率和提早之间实现了更好的衡量。
传统的vit在提早方面依然体现不佳。EfficientFormer-L3的top-1准确率比PoolFormer-S36高1%,在Nvidia A100 GPU上快3倍,在iPhone NPU上快2.2倍,在iPhone CPU上快6.8倍。
EfficientFormer-L1的Top1精度比MobileViT-XS高4.4%,并且在不同的硬件和编译器上运行得更快。
MS COCO数据集,EfficientFormers的体现始终优于CNN (ResNet)和Transformer (PoolFormer)。
应用ADE20K,在相似的计算估算下,EfficientFormer始终比基于CNN和transformer的骨干性能好得多。
论文地址:
EfficientFormer: Vision Transformers at MobileNet Speed
https://avoid.overfit.cn/post/eb0e56c5753942cf8ee70d78e2cd7db7