论文从新扫视了ResNet的构造、训练方法以及缩放策略,提出了性能全面超过EfficientNet的ResNet-RS系列。从试验成果来看性能晋升挺高的,值得参考
起源:晓飞的算法工程笔记 公众号
论文: Revisiting ResNets: Improved Training and Scaling Strategies
- 论文地址:https://arxiv.org/abs/2103.07579
- 论文代码:https://github.com/tensorflow/tpu/tree/master/models/official/resnet/resnet_rs
Introduction
视觉模型的准确率由构造、训练形式和缩放策略独特决定,新模型的试验通常应用了新的训练方法和超参数,不能间接和过期的训练方法失去的旧模型后果进行比照。为此,论文打算在ResNet上验证不同的训练方法和缩放策略的影响。
论文的次要奉献如下:
- 在不扭转模型构造的前提下,通过试验验证正则化办法及其组合的作用,失去能晋升性能的正则化策略。
- 提出简略、高效的缩放策略:1)如果试验配置可能呈现过拟合(比方训练周期长),优先缩放深度,否则缩放宽度。2)更慢地缩放输出分辨率。
- 将下面的正则化策略和缩放策略试验后果利用到ResNet提出ResNet-RS,性能全面超过EfficientNet。
- 应用额定的130M伪标签图片对ResNet-RS进行半监督预训练,ImageNet上的性能达到86.2%,TPU上的训练速度快4.7倍。
- 将通过自监督取得的ResNet-RS模型,在不同的视觉工作上进行fine-tuned,性能持平或超过SimCLR和SimCLRv2。
- 将3D ResNet-RS利用到视频分类,性能比baseline高4.8%。
Characterizing Improvements on ImageNet
模型的晋升能够粗略地分为四个方向:构造改良、训练/正则办法、缩放策略和应用额定的训练数据。
Architecture
新构造的钻研最受关注,神经网络搜寻的呈现使得构造钻研更进了一步。另外还有一些脱离经典卷积网络的构造,比方退出self-attention或其它代替计划,如lambda层。
Training and Regularization Methods
当模型须要训练更长时间时,正则办法(如dropout、label smoothing、stochastic depth、dropblock)和数据加强能无效地晋升模型泛化能力,而更优的学习率调整办法也能晋升模型最终的准确率。为了与之前的工作进行偏心比照,一些钻研仅简略地应用无正则的训练设置,这样显然不能体现钻研的极致性能。
Scaling Strategies
晋升模型的维度(宽度、深度和分辨率)也是晋升准确率的无效办法。特地是在自然语言模型中,模型的规模对准确率有间接的影响,而在视觉模型中也同样无效。随着计算资源的减少,能够适当减少模型的维度。为了将此适配系统化,EfficentNet提出了混合缩放因子办法,用于缩放时均衡网络深度、宽度和分辨率之间的关系,但论文发现这个办法并不是最优的。
Additional Training Data
另一个无效晋升性能的办法是应用额定的数据集进行预训练。在大规模数据集下预训练的模型,可能在ImageNet上达到很好的性能。须要留神的是,这里并非必须要标注好的数据集,应用伪标签的半监督训练,同样也能达到很好的性能。
Methodology
Architecture
在结构上,ResNet-RS仅采纳了ResNet-D加SENet的改良,这些改良在以后的模型中常常被采纳。
ResNet-D
对原生的ResNet进行了到处改良:1)将stem的$7\times 7$卷积替换为3个$3\times 3$卷积。2)替换下采样模块的residual门路的头两个卷积的stride配置。3)将下采样模块的skip门路中的stride-2 $1\times 1$卷积替换为stride-2 $2\times 2$均匀池化和non-strided $1\times 1$卷积。4)去掉stem中的stride-2 $3\times 3$最大池化层,在下个bottleneck的首个$3\times 3$卷积中进行下采样。
Squeeze-and-Excitation
SE模块通过跨通道计算取得的各通道的权值,而后对通道进行加权。设置ratio=0.25,在每个bottleneck中都退出。
Training Method
钻研以后SOTA分类模型中应用的正则化和数据加强办法,以及半监督/自监督学习。
Matching the EfficientNet Setup
训练方法与EfficientNet相似,共训练350轮,有以下轻微的差别:1)应用cosine学习率调整办法。2)应用RandAugment加强数据。EfficientNet最后应用AutoAugment加强数据,应用RandAugment后果变动不大。3)为了简便,应用Momentum优化器而不是RMSProp优化器。
Regularization
应用weight decay,label smoothing,dropout和stochastic depth进行正则化。
Data Augmentation
应用RandAugment数据加强作为额定的正则化器,对每张图片应用一系列随机加强办法。
Hyperparameter Tuning
为了疾速抉择适宜不同正则办法和训练方法的超参数,应用蕴含ImageNet的2%(1024分片取20分片)数据形成minival-set,而本来的ImageNet验证集作为validation-set。
Improved Training Methods
Additive Study of Improvements
论文对各训练方法、正则化办法、构造优化进行了叠加试验,后果如表2所示,训练方法和正则化办法带来的晋升大概占3/4的总精度晋升。
Importance of decreasing weight decay when combining regularization methods
论文在应用RandAugment和label smoothing时,没有扭转默认的weight decay设置,性能有晋升。但在退出dropout或stochastic depth后,性能呈现了降落,最初通过升高weight decay来复原。weight decay用于正则化参数,在搭配其它正则化解决时,须要升高其值防止适度正则化。
Improved Scaling Strategies
为了摸索模型缩放的逻辑,预设宽度比例[0.25, 0.5, 1.0, 1.5, 2.0]、深度比例[26, 50, 101, 200, 300, 350, 400]以及分辨率[128, 160, 224, 320, 448],组合不同的比例进行模型性能的试验。每个组合训练350周期,训练配置与SOTA模型统一,在模型大小减少时,相应地增强正则化的力度。
次要有以下发现:
- FLOPs do not accurately predict performance in the bounded data regime。在模型较小时,模型性能跟模型大小成正相干关系,但当模型变得越大后,这种关系就变得越不显著了,转而跟缩放策略无关。应用不同缩放策略将模型缩放到雷同大小,模型越大,性能差别越大。
- The best performing scaling strategy depends on the training regime。不同训练周期下,不同缩放版本的性能曲线差别较大,因而缩放策略的最好性能跟试验的设置有很大关系。
Strategy #1 - Depth Scaling in Regimes Where Overfitting Can Occur
Depth scaling outperforms width scaling for longer epoch regimes。从图3右能够看出,在350周期的训练配置下,深度缩放在任意输出分辨率下都要比宽度缩放更无效。宽度缩放对过拟合是次优的,甚至有时会导致性能损失,这可能因为宽度缩放引入了过多参数,而深度缩放仅引入大量参数。
Width scaling outperforms depth scaling for shorter epoch regimes,从图3左能够看出,在10周期的训练配置下,宽度缩放更优。而从图3中能够看出,在100周期的训练配置下,搭配不同的输出分辨率,深度缩放和宽度缩放的性能各有差别。
Strategy #2 - Slow Image Resolution Scaling
从图2能够看出,输出分辨率越大,可带来的收益减少越少,也就是性价比越低。因而,在输出分辨率缩放上,论文采取最低优先级,从而更好地折中速度和准确率。
Two Common Pitfalls in Designing Scaling Strategies
在剖析缩放策略时,论文发现了两个常见的错误做法:
- Extrapolating scaling strategies from small-scale regimes,从小尺寸的试验设置进行钻研。以往的搜寻策略通常应用小模型或较短的训练周期进行钻研,这种场景最优的缩放策略不肯定能迁徙到大模型和较长周期下的训练。因而,论文不举荐在这种场景下破费大力量进行缩放策略试验。
- Extrapolating scaling strategies from a single and potentially sub-optimal initial architecture,从次优的初始构造进行缩放会影响缩放的后果。比方EfficientNet的混合缩放固定了计算量和分辨率进行搜寻,然而分辨率也是影响准确率的一个影响因素。因而,论文综合宽度、深度和分辨率进行缩放策略钻研。
Summary of Improved Scaling Strategies
对于新工作,论文倡议先应用小点的训练子集,对不同尺寸的配置进行残缺周期训练测试,找到对准确率影响较大的缩放维度。对于图片分类,缩放策略次要有以下两点:
- 如果试验配置可能呈现过拟合(比方训练周期长),优先缩放深度,否则缩放宽度。
- 迟缓地缩放输出分辨率。
论文最终搜寻失去的ResNet-RS系列的配置如表7所示,在准确率匹配EfficientNet的前提下,TPU上的计算速度快1.7~2.7倍。须要阐明的是,尽管ResNet-RS的计算量和参数量广泛比EfficientNet高,但ResNet-RS的理论计算速度和内存应用都更优良,阐明计算量和参数量并不能间接代表速度大小和内存占用。
Experiment
对EfficentNet进行优化后比照。
半监督成果比照。
自监督在不同工作上的成果比照。
视频分类的比照试验。
Conclusion
论文从新扫视了ResNet的构造、训练方法以及缩放策略,提出了性能全面超过EfficientNet的ResNet-RS系列。从试验成果来看性能晋升挺高的,值得参考。
如果本文对你有帮忙,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】