论文提出aging evolution,一个锦标赛抉择的变种来优化进化算法,在NASNet搜寻空间上,比照强化学习和随机搜寻,该算法足够简洁,而且可能更快地搜寻到更高质量的模型,论文搜寻出的AmoebaNet-A在ImageNet上能达到SOTA

起源:【晓飞的算法工程笔记】 公众号

论文: Regularized Evolution for Image Classifier Architecture Search

  • 论文地址:https://arxiv.org/abs/1802.01548

Introduction


  神经网络构造搜寻的网络曾经可能超过人工设计的网络,然而基于进化算法(evolutionary algorithms)和基因布局(genetic programming)还没有达到人工设计的网络的精度。为此,论文在规范的进化过程根底上进行两个改良:

  • 提出改良锦标赛抉择(tournament selection)的进化算法,命名aging evolution或regularized evolution。在锦标赛抉择中,体现最好的基因会保留,而新办法将每个基因关联一个年龄,偏差于抉择年老的基因
  • 在NASNet的搜寻空间上采纳最简略的变异汇合进行进化,NasNet的搜寻空间用小的有向图来示意卷积神经网络,节点示意暗藏层,带标签的边示意常见的网络操作,变异的规定仅容许随机将边连贯到新的节点和批改边的标签

  在NASNet空间进行搜寻,可能间接地将论文提出的办法和原来的强化学习办法进行比照。论文提出的办法不仅简略,而且搜寻速度更快,后果更优,搜寻失去的AmoebaNet-A能达到83.9% top-1 error rate

Methods


Search Space

  NASNet搜寻空间定义的网络架构是固定的,如图1左,通过重叠单元(cell)来组成网络,每个单元承受前两个单元的输入作为输出,有normal cellreduction cell,别离次要用于特征提取以及池化。单元的搜寻就是定义外面每个块的输出、算子以及合并输入形式,细节能够看NASNet的论文,也能够看我之前的NASNet解读

Evolutionary Algorithm

  进化算法始终保持population(种群)的大小为$P$个模型,应用随机网络进行population初始化,而后进行$C$轮进化来优化种群。每轮以平均的概率随机选取S个模型,将选取的模型中准确率最高的作为parent,而后将parent进行mutation(变异)失去新网络child,在训练和验证后将child退出到historypopulation的右侧中,最初删除population最右边的模型,算法能够通过散发“$while |history|$”来进行并行计算
  须要留神,在锦标赛抉择中,通过去掉S-sample中最差的模型来放弃最后种群数始终为$P$,这能够认为是non-aging evolution。相同的,论文的新办法每次间接去掉种群中最老的模型,这样能为搜寻带来更多的可能性,而非只关注高准确率模型,称为aging evolution
  直观的,变异可认为是提供摸索,而参数$S$则能够认为是提供榨取(获取最优模型的可能)。不同的参数$S$管制榨取的侵略性,$S=1$等于随机搜寻,$2\le S\le P$则代表不同的贪心水平

  变异有三种模式,每次只能进行一种变异,两种次要的为hidden state mutationop mutation,另外一种为不变异。hidden state mutation首先抉择变异的是normal cell还是reduction cell,而后抉择单元的5个block中的一个,最好在block的两个输出中抉择一个进行变异,随机抉择另外一个单元内的hidden state作为输出,前提不能产生环。op mutation则进行相似的抉择,先单元类型,而后block,再选两个操作中的一个进行变异,替换成另一个随机操作

Baseline Algorithms

  论文的次要比照算法为强化学习(RL)和随机搜寻(RS)

Experimental Setup

  在CIFAR-10上进行小模型(N和F都很小)搜寻,直到验证了20k模型,之后将搜寻到的最优构造利用到full-size的模型中(进步N和F),而后应用更长的训练工夫来取得CIFAR-10和ImageNet上的准确率

Methods Details


  op的抉择与NASNet有点不同,蕴含:none (identity); 3x3, 5x5 and 7x7 separable (sep.) convolutions (convs.); 3x3 average (avg.) pool; 3x3 max pool;
3x3 dilated (dil.) sep. conv.; 1x7 then 7x1 conv,$P=100$,$S=25$,在搜寻阶段每个模型训练25 epoch,$N=3/F=24$,在450张K40上训练7天,identity mutation的概率固定为0.05,其它的两种概率统一,搜寻到的最优20个模型进行最终的训练

Results


Comparison With RL and RS Baselines

  图3看出进化办法有更高的准确率,而且能够早停

  图4进行了多次重复试验,进化算法比RS的准确率高,比RL的参数少

  论文的进化算法搜寻到的最优网络AmoebaNet-A

  能够看到,在参数量和准确率办法,AmoebaNet-A要优于NASNet-A

ImageNet Results

  将CIFAR-10上的最优模型转化到ImageNet上,准确率与以后的SOTA类似,对模型进行进一步加大后,失去SOTA模型83.9%,然而模型的参数量绝对较大

CONCLUSION


  论文提出aging evolution,一个锦标赛抉择的变种来优化进化算法,在NASNet搜寻空间上,比照强化学习和随机搜寻,该算法足够简洁,而且可能更快地搜寻到更高质量的模型,450块K40搜寻大概7天,论文搜寻出的AmoebaNet-A在ImageNet达到SOTA



如果本文对你有帮忙,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】