论文从新扫视了 ResNet 的构造、训练方法以及缩放策略,提出了性能全面超过 EfficientNet 的 ResNet-RS 系列。从试验成果来看性能晋升挺高的,值得参考
起源:晓飞的算法工程笔记 公众号
论文: Revisiting ResNets: Improved Training and Scaling Strategies
- 论文地址:https://arxiv.org/abs/2103.07579
- 论文代码:https://github.com/tensorflow/tpu/tree/master/models/official/resnet/resnet_rs
Introduction
视觉模型的准确率由构造、训练形式和缩放策略独特决定,新模型的试验通常应用了新的训练方法和超参数,不能间接和过期的训练方法失去的旧模型后果进行比照。为此,论文打算在 ResNet 上验证不同的训练方法和缩放策略的影响。
论文的次要奉献如下:
- 在不扭转模型构造的前提下,通过试验验证正则化办法及其组合的作用,失去能晋升性能的正则化策略。
- 提出简略、高效的缩放策略:1)如果试验配置可能呈现过拟合(比方训练周期长),优先缩放深度,否则缩放宽度。2)更慢地缩放输出分辨率。
- 将下面的正则化策略和缩放策略试验后果利用到 ResNet 提出 ResNet-RS,性能全面超过 EfficientNet。
- 应用额定的 130M 伪标签图片对 ResNet-RS 进行半监督预训练,ImageNet 上的性能达到 86.2%,TPU 上的训练速度快 4.7 倍。
- 将通过自监督取得的 ResNet-RS 模型,在不同的视觉工作上进行 fine-tuned,性能持平或超过 SimCLR 和 SimCLRv2。
- 将 3D ResNet-RS 利用到视频分类,性能比 baseline 高 4.8%。
Characterizing Improvements on ImageNet
模型的晋升能够粗略地分为四个方向:构造改良、训练 / 正则办法、缩放策略和应用额定的训练数据。
Architecture
新构造的钻研最受关注,神经网络搜寻的呈现使得构造钻研更进了一步。另外还有一些脱离经典卷积网络的构造,比方退出 self-attention 或其它代替计划,如 lambda 层。
Training and Regularization Methods
当模型须要训练更长时间时,正则办法 (如 dropout、label smoothing、stochastic depth、dropblock) 和数据加强能无效地晋升模型泛化能力,而更优的学习率调整办法也能晋升模型最终的准确率。为了与之前的工作进行偏心比照,一些钻研仅简略地应用无正则的训练设置,这样显然不能体现钻研的极致性能。
Scaling Strategies
晋升模型的维度 (宽度、深度和分辨率) 也是晋升准确率的无效办法。特地是在自然语言模型中,模型的规模对准确率有间接的影响,而在视觉模型中也同样无效。随着计算资源的减少,能够适当减少模型的维度。为了将此适配系统化,EfficentNet 提出了混合缩放因子办法,用于缩放时均衡网络深度、宽度和分辨率之间的关系,但论文发现这个办法并不是最优的。
Additional Training Data
另一个无效晋升性能的办法是应用额定的数据集进行预训练。在大规模数据集下预训练的模型,可能在 ImageNet 上达到很好的性能。须要留神的是,这里并非必须要标注好的数据集,应用伪标签的半监督训练,同样也能达到很好的性能。
Methodology
Architecture
在结构上,ResNet-RS 仅采纳了 ResNet- D 加 SENet 的改良,这些改良在以后的模型中常常被采纳。
-
ResNet-D
对原生的 ResNet 进行了到处改良:1)将 stem 的 $7\times 7$ 卷积替换为 3 个 $3\times 3$ 卷积。2)替换下采样模块的 residual 门路的头两个卷积的 stride 配置。3)将下采样模块的 skip 门路中的 stride-2 $1\times 1$ 卷积替换为 stride-2 $2\times 2$ 均匀池化和 non-strided $1\times 1$ 卷积。4)去掉 stem 中的 stride-2 $3\times 3$ 最大池化层,在下个 bottleneck 的首个 $3\times 3$ 卷积中进行下采样。
-
Squeeze-and-Excitation
SE 模块通过跨通道计算取得的各通道的权值,而后对通道进行加权。设置 ratio=0.25,在每个 bottleneck 中都退出。
Training Method
钻研以后 SOTA 分类模型中应用的正则化和数据加强办法,以及半监督 / 自监督学习。
-
Matching the EfficientNet Setup
训练方法与 EfficientNet 相似,共训练 350 轮,有以下轻微的差别:1)应用 cosine 学习率调整办法。2)应用 RandAugment 加强数据。EfficientNet 最后应用 AutoAugment 加强数据,应用 RandAugment 后果变动不大。3)为了简便,应用 Momentum 优化器而不是 RMSProp 优化器。
-
Regularization
应用 weight decay,label smoothing,dropout 和 stochastic depth 进行正则化。
-
Data Augmentation
应用 RandAugment 数据加强作为额定的正则化器,对每张图片应用一系列随机加强办法。
-
Hyperparameter Tuning
为了疾速抉择适宜不同正则办法和训练方法的超参数,应用蕴含 ImageNet 的 2%(1024 分片取 20 分片)数据形成 minival-set,而本来的 ImageNet 验证集作为 validation-set。
Improved Training Methods
Additive Study of Improvements
论文对各训练方法、正则化办法、构造优化进行了叠加试验,后果如表 2 所示,训练方法和正则化办法带来的晋升大概占 3 / 4 的总精度晋升。
Importance of decreasing weight decay when combining regularization methods
论文在应用 RandAugment 和 label smoothing 时,没有扭转默认的 weight decay 设置,性能有晋升。但在退出 dropout 或 stochastic depth 后,性能呈现了降落,最初通过升高 weight decay 来复原。weight decay 用于正则化参数,在搭配其它正则化解决时,须要升高其值防止适度正则化。
Improved Scaling Strategies
为了摸索模型缩放的逻辑,预设宽度比例 [0.25, 0.5, 1.0, 1.5, 2.0]、深度比例[26, 50, 101, 200, 300, 350, 400] 以及分辨率[128, 160, 224, 320, 448],组合不同的比例进行模型性能的试验。每个组合训练 350 周期,训练配置与 SOTA 模型统一,在模型大小减少时,相应地增强正则化的力度。
次要有以下发现:
- FLOPs do not accurately predict performance in the bounded data regime。在模型较小时,模型性能跟模型大小成正相干关系,但当模型变得越大后,这种关系就变得越不显著了,转而跟缩放策略无关。应用不同缩放策略将模型缩放到雷同大小,模型越大,性能差别越大。
- The best performing scaling strategy depends on the training regime。不同训练周期下,不同缩放版本的性能曲线差别较大,因而缩放策略的最好性能跟试验的设置有很大关系。
Strategy #1 – Depth Scaling in Regimes Where Overfitting Can Occur
Depth scaling outperforms width scaling for longer epoch regimes。从图 3 右能够看出,在 350 周期的训练配置下,深度缩放在任意输出分辨率下都要比宽度缩放更无效。宽度缩放对过拟合是次优的,甚至有时会导致性能损失,这可能因为宽度缩放引入了过多参数,而深度缩放仅引入大量参数。
Width scaling outperforms depth scaling for shorter epoch regimes,从图 3 左能够看出,在 10 周期的训练配置下,宽度缩放更优。而从图 3 中能够看出,在 100 周期的训练配置下,搭配不同的输出分辨率,深度缩放和宽度缩放的性能各有差别。
Strategy #2 – Slow Image Resolution Scaling
从图 2 能够看出,输出分辨率越大,可带来的收益减少越少,也就是性价比越低。因而,在输出分辨率缩放上,论文采取最低优先级,从而更好地折中速度和准确率。
Two Common Pitfalls in Designing Scaling Strategies
在剖析缩放策略时,论文发现了两个常见的错误做法:
- Extrapolating scaling strategies from small-scale regimes,从小尺寸的试验设置进行钻研。以往的搜寻策略通常应用小模型或较短的训练周期进行钻研,这种场景最优的缩放策略不肯定能迁徙到大模型和较长周期下的训练。因而,论文不举荐在这种场景下破费大力量进行缩放策略试验。
- Extrapolating scaling strategies from a single and potentially sub-optimal initial architecture,从次优的初始构造进行缩放会影响缩放的后果。比方 EfficientNet 的混合缩放固定了计算量和分辨率进行搜寻,然而分辨率也是影响准确率的一个影响因素。因而,论文综合宽度、深度和分辨率进行缩放策略钻研。
Summary of Improved Scaling Strategies
对于新工作,论文倡议先应用小点的训练子集,对不同尺寸的配置进行残缺周期训练测试,找到对准确率影响较大的缩放维度。对于图片分类,缩放策略次要有以下两点:
- 如果试验配置可能呈现过拟合(比方训练周期长),优先缩放深度,否则缩放宽度。
- 迟缓地缩放输出分辨率。
论文最终搜寻失去的 ResNet-RS 系列的配置如表 7 所示,在准确率匹配 EfficientNet 的前提下,TPU 上的计算速度快 1.7~2.7 倍。须要阐明的是,尽管 ResNet-RS 的计算量和参数量广泛比 EfficientNet 高,但 ResNet-RS 的理论计算速度和内存应用都更优良,阐明计算量和参数量并不能间接代表速度大小和内存占用。
Experiment
对 EfficentNet 进行优化后比照。
半监督成果比照。
自监督在不同工作上的成果比照。
视频分类的比照试验。
Conclusion
论文从新扫视了 ResNet 的构造、训练方法以及缩放策略,提出了性能全面超过 EfficientNet 的 ResNet-RS 系列。从试验成果来看性能晋升挺高的,值得参考。
如果本文对你有帮忙,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】