关于深度学习:EfficientNetV2-通过NASScaling和FusedMBConv获得更小的模型和更快的训练

EfficientNetV2 是由 Google Research，Brain Team 公布在 2021 ICML 的一篇论文，它联合应用 NAS 和缩放，优化训练速度和参数效率。并且模型中应用新操作（如 Fused-MBConv）在搜寻空间中进行搜寻。EfficientNetV2 模型比 EfficientNetV1 的训练速度快得多，同时体积小 6.8 倍。

论文纲要如下：

了解和进步 EfficientNetV1 的训练效率
NAS 和缩放
Progressive Learning
SOTA 比拟
融化钻研

1、应用十分大的图像尺寸进行训练很慢

EfficientNet 的大图像尺寸会导致大量内存应用。因为 GPU/TPU 上的总内存是固定的，因而应用较小的批大小，这会大大减慢训练速度。

FixRes（论文 FixRes: Fixing the Train-Test Resolution Discrepancy）可用于通过应用更小的图像尺寸进行训练而不是推理。较小的图像尺寸会导致较少的计算量并反对较大的批量大小，从而将训练速度进步多达 2.2 倍，并且准确度还会有所提高。

2、Depth-wise 卷积在模型的晚期层执行迟缓但在前期层是无效的

Fused-MBConv 在谷歌 AI 博客中提出，Fused-MBConv 将 MBConv 中的 depthwise conv3×3 和扩大 conv1×1 替换为单个惯例 conv3×3。

MBConv 和 Fused-MBConv 的构造

Fused-MBConv 逐步将 EfficientNet-B4 中的原始 MBConv 替换为 Fused-MBConv。

在晚期阶段 1-3 中利用时，Fused-MBConv 能够进步训练速度，而参数和 FLOP 的开销很小。

然而如果所有块都应用 Fused-MBConv（阶段 1-7），那么它会显着减少参数和 FLOP，同时也会减慢训练速度。

3、在每个阶段同样扩充规模并不是最优的

EfficientNet 应用简略的复合缩放规定平等地扩大所有阶段。例如，当深度系数为 2 时，网络中的所有阶段都会使层数翻倍。然而实际上这些阶段对训练速度和参数效率的奉献并不相同。在 EfficientNetV2 中，应用非平均缩放策略逐步向模型的前期增加更多层。EfficientNets 踊跃扩充图像大小，导致大量内存耗费和迟缓训练。为了解决这个问题，EfficientNetV2 对缩放规定稍作批改，最大图像尺寸被限度为较小的值。

1、NAS 搜寻

神经架构搜寻 (NAS) 搜寻空间相似于 PNASNet。通过 NAS 进行卷积运算类型 {MBConv, Fused-MBConv} 的设计抉择，包含层数，内核大小 {3×3, 5×5}，扩大比{1, 4, 6} 等等。另一方面，搜寻空间大小通过以下形式进行优化：

删除不必要的搜寻选项，例如 pooling skip 操作，因为它们从未在原始 EfficientNets 中应用；
重用与在 EfficientNets 中曾经搜寻过的通道大小。

在缩小图像尺寸的状况下，对 1000 多个模型，进行大概 10 个轮次的采样和训练，通过模型精度 A、归一化训练步长 S 和参数大小 P 进行搜寻，并应用简略加权乘积 ax (S^w)×(P^v)，确定了其中 w =-0.07 和 v =-0.05。

EfficientNetV2 与 EfficientNetV1 有几个次要区别：

EfficientNetV2 在晚期层中宽泛应用了 MBConv 和新增加的 fused-MBConv。
EfficientNetV2 更喜爱 MBConv 的较小扩大比，因为较小的扩大比往往具备较少的内存拜访开销。
EfficientNetV2 更喜爱较小的核大小（3×3），但它减少了更多层来弥补较小内核大小导致的感触野缩小。
EfficientNetV2 齐全移除了原始 EfficientNet 中的最初一个 stride-1 阶段，这可能是因为其较大的参数大小和内存拜访开销。

2、缩放

EfficientNetV2-S 应用与 EfficientNet 相似的复合缩放比例放大以取得 EfficientNetV2-M/L，并进行了一些额定的优化：

最大推理图像大小限度为 480，因为十分大的图像通常会导致低廉的内存和训练速度开销；

作为一种启发式办法，更多的层会逐步增加到前面的阶段（例如，阶段 5 和 6），以便在不减少太多运行时开销的状况下减少网络容量。

通过训 NAS 和缩放，所提出的 EfficientNetV2 模型的训练速度比其余的模型快得多。

改良学习中的训练过程

EfficientNetV2 的训练设置

ImageNet top-1 准确率

当图像尺寸较小增广较弱时模型的体现最好；然而对于更大的图像，它在更强的增广的状况下体现更好。从小图像尺寸和弱正则化（epoch = 1）开始，而后随着更大的图像尺寸和更强的正则化逐步减少学习难度：更大的 Dropout 率、RandAugment 幅度和混合比（例如，epoch = 300）。

上面显示了流程的伪代码：

1、ImageNet

模型大小、FLOP 和推理提早——提早是在 V100 GPU 上以 16 的批量大小测量的

标有 21k 的模型在 ImageNet21k 上用 13M 图像进行预训练，其余模型间接在 ImageNet ILSVRC2012 上用 128 万图像从头开始训练。

EfficientNetV2 模型比以前在 ImageNet 上的 ConvNets 和 Transformer 模型速度显著更快，并实现了更好的精度和参数效率。
EfficientNetV2-M 达到了与 EfficientNet-B7 相当的精度，同时应用雷同的计算资源进行训练的速度进步了 11 倍。
EfficientNetV2 模型在准确性和推理速度方面也显着优于所有最近的 RegNet 和 ResNeSt 顶部的第一个图显示了后果。
通过在 ImageNet21k 上进行预训练（32 个 TPU，两天），EfficientNetV2-L(21k) 将 top-1 准确率进步了 1.5%（85.3% 对 86.8%），在运行时应用的参数缩小了 2.5 倍，FLOP 缩小了 3.6 倍训练和推理速度进步 6 倍 — 7 倍。

2、迁徙学习

论文中应用了如下的数据集进行迁徙学习测试：

每个模型都通过很少的步骤进行微调。EfficientNetV2 模型在所有这些数据集上都优于之前的 ConvNets 和 Vision Transformers。

在 CIFAR-100 上，EfficientNetV2-L 的准确度比之前的 GPipe/EfficientNets 高 0.6%，比之前的 ViT/DeiT 模型高 1.5%。这些结果表明，EfficientNetV2 的泛化能力也远远超出了 ImageNet。

1、雷同训练的体现

应用雷同学习设置的性能比拟，EfficientNetV2 模型的性能依然大大优于 EfficientNets：EfficientNetV2-M 将参数缩小了 17%，FLOPs 缩小了 37%，同时在训练中的运行速度比 EfficientNet-B7 快 4.1 倍，推理速度快 3.1 倍。

2、模型缩放

通过应用 EfficientNet 复合缩放放大 EfficientNetV2-S 来比拟较小的模型。所有模型都是在没有 Progressive Learning 的状况下进行训练的。EfficientNetV2 (V2) 模型通常更快，同时放弃相当的参数效率。

3、不同网络的 Progressive Learning

Progressive Learning 通常会缩小训练工夫，同时进步所有不同网络的准确性。

4、自适应正则化（Adaptive Regularization）的重要性

自适应正则化

随机调整大小的起因是 TPU 须要为每个新大小从新编译动静运行图，所以这里每 8 个 epoch 随机采样一次图像大小，而不是每批。

自适应正则化在晚期训练期间对小图像应用很小的正则化，使模型可能更快地收敛并取得更好的最终精度。

https://www.overfit.cn/post/053825be64b64acfa9cbd527a4a1cab7

[2021 ICML] [EfficientNetV2]EfficientNetV2: Smaller Models and Faster Training

https://arxiv.org/abs/2104.00298

关于深度学习:EfficientNetV2-通过NASScaling和FusedMBConv获得更小的模型和更快的训练

了解和进步 EfficientNetV1 的训练效率

NAS 和缩放

Progressive Learning

SOTA 比拟

融化钻研

援用

Just My Socks（注册教程内含优惠码）

关于深度学习:EfficientNetV2-通过NASScaling和FusedMBConv获得更小的模型和更快的训练

了解和进步 EfficientNetV1 的训练效率

NAS 和缩放

Progressive Learning

SOTA 比拟

融化钻研

援用

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）