背景
美团日益增长的用户侧和商家侧业务对人工智能(AI)技术有着十分宽泛和强烈的诉求。从用户角度登程,美团 AI 在外卖之外,有到店生产、酒店游览等 200 多个生存服务场景,均须要 AI 来晋升用户体验。从商家角度登程,美团 AI 将帮忙商家提高效率、剖析经营情况,比方能对用户评论进行细粒度剖析,来刻画出商家服务现状、商家竞争力剖析,以及商圈洞察等等,为商户提供精细化经营倡议。
目前,美团 AI 波及的研发畛域,包含自然语言了解、常识图谱、搜寻、语音辨认、语音生成、人脸识别、文字辨认、视频了解、图像编辑、AR、环境预测、行为布局、静止管制等。AI 技术在这些场景中落地的两个要害局部是规模化的数据和先进的深度学习模型,其中高质量模型的设计和更新迭代是以后 AI 生产开发的痛点和难点,亟需自动化技术来辅助并晋升生产效率。在此情景下应运而生的技术叫做自动化机器学习(AutoML)。AutoML 被认为是模型设计的将来解决方案,可能将 AI 算法工程师从手动设计的简约试错中解放出来。
谷歌 2017 年正式提出神经网络架构搜寻(Neural Architecture Search,NAS)[1] 用于自动化生成模型架构,这项技术被业界寄予厚望,成为 AutoML 的外围组成部分。凭借日益加强的算力和继续迭代的 NAS 算法,视觉模型在架构层面诞生了像 EfficientNet、MobileNetV3 等影响力深远的系列模型,NAS 也利用到了视觉、NLP、语音等畛域的很多方向 [2,3]。NAS 作为生成 AI 模型的 AI,其重要意义显而易见。美团在 NAS 方向也发展了深刻性的钻研,对该畛域放弃着踊跃的摸索。
本文介绍美团和上海交通大学单干的文章 DARTS-[4],该文行将发表在 ICLR 2021 顶会上。ICLR(International Conference on Learning Representations)全称是国内学习表征会议,2013 年由两位深度学习大牛、图灵奖得主 Yoshua Bengio 和 Yann LeCun 牵头开办。ICLR 成立至今仅七年,但它已失去学术界的宽泛认可,被认为是“深度学习畛域的顶级会议”。ICLR 的 h5 指数为 203,在所有迷信出版物中排名第 17,超过了 NeurIPS、ICCV 和 ICML。本届 ICLR 共有 2997 篇论文提交,最终接管 860 篇,包含 53 篇 Oral(接管率 6%),114 篇 Spotlight,693 篇 Poster,接管率为 28.7%。
神经网络架构搜寻简介
神经网络架构搜寻(NAS)的次要工作是如何在无限工夫和资源下搜寻失去最优的模型。NAS 次要由搜寻空间、搜索算法、模型评估三局部组成。NAS 最早在视觉分类工作中验证,在分类工作中常见的搜寻空间分为基于子结构单元(Cell)和基于子结构块(Block)两种,前者的特点是具备丰盛的图构造,将雷同的单元串联再组成最终的网络。后者是直筒型的,搜寻的焦点就在于每层子结构块的选取。
按搜索算法分类,NAS 次要包含基于强化学习(Reinforcement Learning,RL)、基于遗传算法(Evolutionary Algorithm,EA)、基于梯度优化(Gradient-Based)的办法。RL 办法通过生成并评估模型来获取反馈,依据反馈来调整生成的策略,从而生成新的模型,循环这一过程直到最优。EA 办法将模型构造编码为能够穿插和变异的“基因”,通过不同的遗传算法来获取新一代的基因,直到达到最好。EA 办法的长处在于能够解决多种指标,比方一个模型的优劣有参数量、计算提早、性能指标等多个考查维度,EA 办法便很适宜在多个维度进行摸索和演进。但 RL 和 EA 均比拟耗时,次要受限于模型评估局部,个别采取全量、大量训练的办法。最新的 One-Shot 路线采纳训练一个蕴含所有子结构的超网来评估所有子网的形式,能够从很大水平上进步 NAS 的效率。但同期,基于梯度优化的 DARTS 办法更为高效,成为当下 NAS 办法支流的抉择。
DARTS 由卡耐基梅隆大学(CMU)的研究者刘寒骁等人提出,全称为可微分的神经网络架构搜寻(Differentiable Architecture Search,DARTS)[5],大幅提高了搜寻效率,受到了业界的宽泛认可。可微分办法(DARTS)基于梯度优化,它首先其定义了一个基于有向无环图(DAG)的子结构(Cell),DAG 有四个两头节点(下图 Figure 1 中灰色方框),每条边有多个可选算子(由不同色彩的边示意),通过 softmax 加和不同边的后果作为到下个节点的输出。重叠这样的子结构能够造成网络的骨干。DARTS 将搜寻过程看作对重叠而成的骨干网络(也称为超网,或过参数化网络)的优化过程。这里每条边被赋予了不同的构造权重,并和网络权重一起穿插进行梯度更新。优化实现后构造权重大(由粗线条示意)的作为最终子网的算子,并将该子网作为搜寻后果(Figure 1d 展现了最终的 Cell 构造)。这个过程(Figure 1 从 c 到 d)将间断的构造权重硬性截断为离散值,比方 0.2 变为 1,0.02 变为 0,而这样会产生所谓的离散化偏差(Discretization Gap)。
神经网络架构搜寻的难点
简略总结目前神经网络架构搜寻次要须要解决的难点在于:
- 搜寻过程的 高效性:搜索算法消耗的计算资源和工夫要在可承受的范畴,从而能够在实践中失去宽泛的利用,间接撑持面向业务数据集的模型构造搜寻;
- 搜寻后果的 有效性:搜寻失去的模型要在多个数据集上有很好的性能,且又很好的泛化性能和畛域迁徙能力,比方搜寻失去的分类主干网能够很好地迁徙到检测和宰割工作,并且有很好的体现;
- 搜寻后果的 鲁棒性:在具备有效性的同时,屡次搜寻的后果要绝对稳固,即进步搜寻的可靠性,升高试错老本。
可微分办法的毛病和改良办法
可微分神经网络架构搜寻办法的不足之处就是鲁棒性较差,容易产生性能崩塌,即搜寻过程中的超网性能体现很好但推断出的子网存在大量的跳跃连贯(Skip Connection),重大减弱了最终模型的性能。基于 DARTS 涌现出了十分多的改良工作,比方 Progessive DARTS[6],Fair DARTS[7],RobustDARTS[8],Smooth DARTS[9] 等。其中,ICLR 2020 满分论文 RobustDARTS 提出用 Hessian 特色根作为掂量 DARTS 呈现性能崩塌的征兆,但计算特色根又十分耗时。而且在规范的 DARTS 搜寻空间下,RobustDARTS 在 CIFAR-10 数据集上的搜寻失去的模型性能并不突出。这促使咱们思考怎么进步鲁棒性,同时又进步有效性。针对这两个问题,业内有不同的剖析和解决办法,代表性的别离是 Fair DARTS(ECCV 2020)、RobustDARTS(ICLR 2020)和 Smooth DARTS(ICML 2020)。
Fair DARTS 察看到大量跳跃连贯的存在,并着重剖析了其可能的产生起因。文章认为,跳跃连贯在可微分的优化过程中,存在竞争环境下的不偏心劣势(Unfair Advantage),导致跳跃连贯容易在竞争中胜出。因而,FairDARTS 提出放宽竞争环境(Softmax 加和)为单干环境(Sigmoid 加和),使得不偏心劣势带来的影响生效。最终选取算子形式也与 DARTS 不同,通过采取阈值截断,比方选取构造权重高于 0.8 的算子,此时跳跃连贯能够和其余算子同时呈现,但这样等同于增大了搜寻空间:原先的子网中,两个节点之间最终只选取一个。
RobustDARTS(简称 R-DARTS)通过计算 Hessian 特色根来判断优化过程是否呈现崩塌,文章认为,损失函数地貌(Loss Landscape)存在尖利的部分最长处(Sharp Local Minima,Figure 5a 右侧点),离散化过程(α* 到 αdisc)会导致从优化较好的尖利点偏移到优化较差的中央,从而导致最终模型性能降落。R-DARTS 发现这个过程和 Hessian 特色根关系密切(Figure 5b)。因而可认为,Hessian 特色根变动幅度过大时优化应该进行,或者通过正则化伎俩来防止 Hessian 特色根产生大幅变动。
Smooth DARTS(简作 SDARTS)遵循了 R-DARTS 的判断根据,采取基于扰动的正则化办法,对 Hessian 特色根进行了隐式的束缚。具体来讲,SDARTS 对构造权重给予了肯定水平的随机扰动,使得超网具备更好的抗干扰性,同时对损失函数地貌有平滑作用。
DARTS-
跳跃连贯的工作机制剖析
咱们首先从跳跃连贯的工作机制进行剖析性能崩塌景象。ResNet [11] 中引入了跳跃连贯,从而使得反向流传时,网络的浅层总蕴含对深层的梯度,因而能够缓解梯度隐没的景象。如下式(i,j,k 表示层数,X 为输出,W 为权重,f 为计算单元)。
为了理清跳跃连贯对残差网络性能的影响,咱们在 ResNet 上做了一组验证性试验,即对跳跃连贯加上可学习的构造权重参数 β,此时咱们的梯度计算则变为下式:
三次试验别离初始化 β 为 {0, 0.5, 1.0},咱们发现 β 总能快速增长到 1 左近(Figure 2)来增大深层梯度向浅层的传递,进而缓解梯度隐没的景象。
在 DARTS 中,跳跃连贯跟 ResNet 相似,当具备可学习参数时,其构造参数也具备这种趋势,从而促成超网的训练。但正如 Fair DARTS [7] 提到的,同时带来的问题就是对其余算子来讲跳跃连贯存在不偏心劣势。
解决崩塌的方法:减少辅助跳跃连贯
根据上述的剖析,DARTS- 指出跳跃连贯(下图 Figure 1 中 Skip)存在双重作用:
- 作为可选算子自身,参加构建子网。
- 与其余算子造成残差构造,从而产生对超网优化产生促进作用。
第一个作用是预期其要施展的作用,从而与其余算子公平竞争。第二个作用是跳跃连贯具备不偏心劣势的起因,促成了优化,但烦扰了咱们对最终搜寻后果的推断。
为了将第二个作用剥离进去,咱们提出额定减少一条跳跃连贯(Auxiliary Skip),并使其构造权重 β 从 1 衰减到 0(简便起见,应用线性衰减),这样能够使得超网和子网放弃构造上的一致性。Figure 1(b)图示出了一个子结构中两个节点间的连贯状况。
除了减少的辅助跳跃连贯,DARTS- 优化过程和 DARTS 大同小异。首先依据 Figure 1(b)构建超网,选取一种 β 衰减策略,而后采取交替迭代优化超网权重 w 和构造权重 α,具体见上面的算法形容(Algorithm 1)。
在本办法中,咱们去掉了用批示信号(Indicator)发现性能崩塌的做法,比方 R-DARTS 中的特色根,从而打消了 DARTS 的性能崩塌,因而命名为 DARTS-。另外依据 PR-DARTS [12] 的收敛实践来剖析,辅助跳跃连贯具备均衡算子间竞争的作用,且当 β 衰减后,算子间的公平竞争仍然放弃。
剖析和验证
Hessian 特色根变化趋势
在 R-DARTS 以及 DARTS 采纳的多个搜寻空间下,DARTS- 发现了子网性能增长(Figure 4b)但 Hessian 特色根变动幅度过大(Figure 4a)的情景,这个后果成为了 R-DARTS 所提出准则的反例,即采纳 R-DARTS 断定准则,咱们会漏掉一些好的模型。这也阐明了 DARTS- 能够带来不同于 R-DARTS 的模型构造。
验证集准确率地貌
验证集准确率的地貌能够肯定水平上阐明模型的优化过程难易。DARTS(Figure 3a)在最优解左近范畴的地貌绝对平缓,等高线比拟疏密不均,而 DARTS- 则体现得舒缓平滑,等高线更为平均。另外更为润滑的地貌也不容易呈现尖利的部分最长处,肯定水平也缩小了离散化偏差。
试验后果
模型构造
Figure 9 给出了咱们在 DARTS 搜寻空间 S0 和 Robust DARTS 搜寻空间 S1-S4 失去的网络结构。Figure 10 是在 MobileNetV2 的搜寻空间下 ImageNet 数据集上进行间接搜寻的后果。
分类工作后果
在规范分类数据集 CIFAR-10 和 ImageNet 上 DARTS- 均获得了业界当先的后果,如下表所示:
在 RobustDARTS 提出的测验鲁棒性的多个搜寻空间 S1-S4 中,DARTS- 搜寻失去的模型性能优于 R-DARTS 和 SDARTS。
NAS 算法评测
NAS-Bench-201[10] 是用于掂量 NAS 算法的评测基准工具之一,DARTS- 也获得了优于其余 NAS 算法的后果,而且最好后果根本迫近了基准中最好的模型。
迁徙能力
DARTS-A 作为主干网在 COCO 数据集指标检测工作上也优于之前 NAS 模型的性能,mAP 达到了 32.5%。
综合来看,DARTS- 办法继承了 DARTS 的高效率,且在规范数据集、NAS 基准评测、R-DARTS 搜寻空间中证实了其鲁棒性和有效性,在检测工作中也证实了其畛域迁徙的能力,从而印证了搜寻办法自身的优越性,解决了以后神经网络架构搜寻中的一些难题,将会对 NAS 钻研和利用产生踊跃的推动作用。
总结及瞻望
本次美团在 ICLR 2021 被收录的文章 DARTS-,从新了梳理 DARTS 搜寻后果不够鲁棒的起因,剖析了跳跃连贯的双重作用,并提出了减少带衰减系数的辅助跳跃连贯来对其进行拆散的办法,使得内层原生的跳跃连贯只体现其作为可选操作的性能。咱们同时对 R-DARTS 所依赖的特色根进行深入分析,发现了其作为性能崩塌标记会呈现反例的情景。将来 DARTS- 作为高效、鲁棒且通用的搜寻办法,冀望在其余畛域工作和落地中失去更多的拓展和利用。对于文章的更多细节,请参考原文。试验代码曾经在 GitHub 开源。
AutoML 技术能够实用于计算机视觉、语音、NLP、搜寻举荐等畛域,视觉智能核心 AutoML 算法团队旨在通过 AutoML 技术赋能公司业务、减速算法落地。目前该论文曾经申请了专利,本文算法也集成到美团自动化视觉平台零碎中,减速自动化模型生产和迭代。除了视觉场景外,咱们后续将摸索在搜寻举荐、无人车、优选、语音等业务场景中的利用。
作者简介
祥祥、晓星、张勃、晓林等,均来自美团视觉智能核心。
参考文献
- Learning Transferable Architectures for Scalable Image Recognition, https://arxiv.org/abs/1707.07012.
- NAS-FPN: Learning scalable feature pyramid architecture for object detection,https://arxiv.org/abs/1904.07392.
- Auto-deeplab: Hierarchical neural architecture search for semantic image segmentation,https://arxiv.org/abs/1901.02985.
- DARTS-: Robustly Stepping out of Performance Collapse Without Indicators,https://openreview.net/forum?id=KLH36ELmwIB.
- DARTS: Differentiable Architecture Search,https://arxiv.org/pdf/1806.09055.pdf.
- Progressive Differentiable Architecture Search: Bridging the Depth Gap between Search and Evaluation,https://arxiv.org/pdf/1904.12760.
- Fair DARTS: Eliminating Unfair Advantages in Differentiable Architecture Search,https://arxiv.org/pdf/1911.12126.pdf.
- Understanding and Robustifying Differentiable Architecture Search,https://openreview.net/pdf?id=H1gDNyrKDS.
- Stabilizing Differentiable Architecture Search via Perturbation-based Regularization,https://arxiv.org/abs/2002.05283.
- NAS-Bench-201: Extending the Scope of Reproducible Neural Architecture Search,https://openreview.net/forum?…
- Deep Residual Learning for Image Recognition,https://arxiv.org/abs/1512.03385.
- Theory-inspired path-regularized differential network architecture search,https://arxiv.org/abs/2006.16537.
浏览美团技术团队更多技术文章合集
前端 | 算法 | 后端 | 数据 | 平安 | 运维 | iOS | Android | 测试
| 在公众号菜单栏对话框回复【2020 年货】、【2019 年货】、【2018 年货】、【2017 年货】等关键词,可查看美团技术团队历年技术文章合集。
本文系美团技术团队出品,著作权归属美团。欢送出于分享和交换等非商业目标转载或应用本文内容,敬请注明“内容转载自美团技术团队”。本文未经许可,不得进行商业性转载或者应用。任何商用行为,请发送邮件至 tech@meituan.com 申请受权。