文章起源 | 学术头条
原文地址 | 几分之一秒内,就能预测新网络的参数
号外号外,我找到一个宝藏公众号啦,外面都是超赞的干货文章🔥🔥
废话不多说,立马给大家分享
注释开始:
人工智能在很大水平上是一场数字游戏。当深度神经网络在 10 年前开始超过传统算法,是因为咱们终于有了足够的数据和解决能力来充分利用它们。
明天的神经网络更依赖于数据和算力。训练网络时,须要认真调整表征网络的数百万甚至数十亿参数值,这些参数代表人工神经元之间连贯的强度。指标是为它们找到靠近现实的值,这个过程称为优化。但训练网络要达到这一点并不容易。伦敦 DeepMind 的钻研科学家 Petar Veličković 说:“训练可能须要破费几天、几周甚至几个月的工夫”。
但上述这种状况可能很快就会扭转。安大略省圭尔夫大学的 Boris Knyazev 和他的共事设计并训练了一个“超网络”——一种其余神经网络的“霸主”,该网络能够放慢训练过程。给定一个为某些工作设计的新的、未经训练的深度神经网络,超网络能够在几分之一秒内预测新网络的参数,实践上能够使训练变得不必要。因为超网络学习了深度神经网络设计中极其简单的模式,因而这项工作也可能具备更深层次的理论意义。这项钻研题为 Parameter Prediction for Unseen Deep Architectures。
目前,超网络在某些环境中体现的出乎意料地好,但仍有增长空间。Veličković 说:“如果他们能解决相应问题,这将对机器学习产生很大的影响”。
取得“超能力”
目前,训练和优化深度神经网络的最佳办法是一种称为随机梯度降落技术(SGD)的变体。训练波及在给定工作中(例如:图像识别)最小化网络误差。SGD 算法通过大量标记数据来调整网络参数,并缩小误差或损失。梯度降落是损失函数从高值向降落到某个最小值的迭代过程,它代表了足够好的(有时甚至时最好的)参数值。
然而这种技术只有在网络须要优化时才无效。为了构建最后的神经网络(个别由从输出到输入的多层人工神经元组成),工程师必须依附直觉和教训法令。这些架构在神经元层数、每层神经元数等方面可能有所不同。
实践上,一个人能够从很多架构开始,而后优化每个架构并抉择最好的。但现任 Google Brain 的拜访研究员 MengYe Ren 说:“训练须要破费相当多的工夫,训练和测试每个候选网络架构是不可能的。它不能很好地扩大,尤其是思考到数百万种可能的设计。”
所以在 2018 年,Ren 和他在多伦多大学的前共事 Chris Zhang 及他们的参谋 Raquel Urtasun 尝试了一种不同的办法。他们设计了所谓的图超网络(Graph Hypernetwork: GHN),能够在给定一组候选架构的状况下,找到解决某些工作的最佳深度神经网络架构。
该名称概述了他们的办法。“图”指的是深度神经网络的架构,能够被认为是一个数学图——由线或边连贯的点或节点的汇合。这里的节点代表计算单元(通常是神经网络的整个层),边代表这些单元互连的形式。
图超网络的工作原理是首先对于任何须要优化的架构(称其为候选架构),它尽最大致力预测候选者的现实参数。而后将理论神经网络的参数设置为预测值,并在给定工作上对其进行测试。Ren 的团队表明,这种办法可用于对候选架构进行排名,并抉择体现最佳的架构。
当 Knyazev 和他的共事看到图超网络的想法时,他们意识到能够在此基础上进行构建。在他们的新论文中,该团队展现了如何应用 GHN,不仅从一组样本中找到最佳架构,还能够预测最佳网络的参数,使其在相对意义上体现良好。在还没有达到最好的状况下,其能够应用梯度降落进一步训练网络。
Ren 说:“这是一篇十分扎实的论文,它蕴含了更多咱们所做的试验。看到图超网络在十分致力地晋升相对性能,咱们大家都很快乐。”
训练“教练”
Knyazev 和他的团队将他们的超网络命名为 GHN-2,它改良了 Ren 及其共事构建的图超网络的两个重要方面。
首先,他们依赖 Ren 等人将神经网络架构描述为图的技术。图中的每个节点都是对于执行某种特定类型计算的神经元子集的编码信息。图的边缘描述了信息如何从一个节点到另一个节点,从输出到输入。
第二,他们借鉴了训练超网络预测新的候选架构的办法。这须要另外两个神经网络。第一个启用对原始候选图的计算,从而更新与每个节点相干的信息,第二个将更新的节点作为输出,并预测候选神经网络的相应计算单元的参数。这两个网络也有本人的参数,必须在超网络正确预测参数值之前对其进行优化。
具体流程如下,首先你须要训练数据——候选人工神经网络(Artifical Neural Network: ANN)架构的随机样本。对于示例中的每一个架构,先从一个图开始,之后应用图超神经网络预测参数,并应用预测的参数初始化候选 ANN。应用 ANN 来执行一些特定的工作,如图像识别。通过计算 ANN 的损失函数,来更新做出预测的超网络参数,而不是更新 ANN 的参数做出预测。这样能够使超网络在每一次迭代后做的更好;而后,通过迭代标记过的训练数据集中的每一个图像和架构的随机样本中的每一个 ANN,来缩小每一步的损失,直到达到最优。个别这个状况下,你就能够失去一个训练有素的超网络。
因为 Ren 的团队没有公开源代码,所以 Knyazev 的团队驳回了这些想法,从头开始编写了本人的软件,并对其进行了改良。首先,他们确定了 15 种类型的节点,通过混合、匹配能够构建任何古代深度神经网络。他们还在进步预测的准确性上获得了一些提高。
最重要的是,为了确保 GHN-2 学会预测各种指标神经网络架构的参数,Knyazev 及其共事创立了一个蕴含 100 万个可能架构的独特数据集。Knyazev 说:“为了训练咱们的模型,咱们创立了尽可能多样化的随机架构”。
因而,GHN-2 的预测能力更有可能被很好地推广到看不见的指标架构。谷歌研究院大脑团队的钻研科学家 Thomas Kipf 说:“例如,它们能够解释人们应用的所有典型的最先进的架构,这是一个重大贡献。”
令人印象粗浅的后果
当然,真正的考验是让 GHN-2 发挥作用。一旦 Knyazev 和他的团队训练它预测给定工作的参数,例如,对特定数据集中的图像进行分类,他们就测试了它为任何随机候选架构预测参数的能力。这个新的候选者可能具备与训练数据集中的百万架构类似的属性,或者可能不同——有点离群值。在前一种状况下,指标架构被认为是在散发中;在后者中,它已无奈散发。深度神经网络在对后者进行预测时常常会失败,因而在此类数据上测试 GHN-2 十分重要。
借助通过全面训练的 GHN-2 模型,该团队预测了 500 个以前看不见的随机指标网络架构的参数。而后将这 500 个网络(其参数设置为预测值)与应用随机梯度降落训练的雷同网络进行比照。只管有些后果更加简单,但新的超网络通常能够抵挡数千次 SGD 迭代,有时甚至做得更好。
对于图像数据集 CIFAR-10,GHN-2 在分布式架构上的均匀准确率为 66.9%,而应用靠近 2,500 次 SGD 迭代训练的网络,所达到的均匀准确率为 69.2%。对于非分布式架构,GHN-2 的体现出乎意料地好,达到了大概 60% 的准确率。特地是,它对一种特定出名深度神经网络架构 ResNet-50 实现了 58.6% 的可观准确率。Knyazev 在该畛域的旗舰会议 NeurIPS 2021 上说:“鉴于 ResNet-50 比咱们的均匀训练架构大大概 20 倍,所以 ResNet-50 的泛化成果出奇地好,”。
GHN-2 在 ImageNet 上体现不佳,ImageNet 是一个相当大的数据集。均匀而言,它的准确率只有 27.2% 左右。尽管如此,这与应用 5,000 步 SGD 训练的雷同网络的 25.6% 的均匀准确度相比也是无利的。(当然,如果你持续应用 SGD,你最终能够以相当大的老本取得 95% 的准确率。)最要害的是,GHN-2 在不到一秒的工夫内做出了 ImageNet 预测,而应用 SGD 在图形处理单元上预测参数,来取得雷同的性能,均匀破费工夫比 GHN-2 要长 10,000 倍。
Veličković 说:“后果相对令人印象粗浅,他们基本上大大降低了能源老本。”
当 GHN-2 从架构样本中为一项工作找到最佳神经网络,而该最佳抉择还不够好时,至多模型曾经失去了局部训练并且能够进一步优化。与其在应用随机参数初始化的网络上开释 SGD,不如应用 GHN-2 的预测作为终点。Knyazev 说:“基本上咱们模拟的是预训练”。
超过 GHN-2
只管获得了这些胜利,Knyazev 认为机器学习社区一开始会抵制应用图超网络。他将其比作 2012 年之前深度神经网络面临的阻力。过后,机器学习从业者更喜爱手工设计的算法,而不是神秘的深度网络。然而,当对大量数据进行训练的大型深度网络开始超过传统算法时,这种状况产生了变动。Knyazev:“这能够走同样的路。”
与此同时,Knyazev 看到了很多改良的机会。例如,GHN-2 只能被训练来预测参数以解决给定的工作,例如对 CIFAR-10 或 ImageNet 图像进行分类,但不能同时进行。在将来,他构想在更多样化的架构和不同类型的工作(例如图像识别、语音辨认和自然语言解决)上训练图超网络。而后依据指标架构和手头的特定工作来进行预测。
如果这些超网络真的胜利,新的深度神经网络的设计和开发,将不再局限于财力雄厚和可能拜访大数据的公司。任何人都能够参加其中。Knyazev 十分分明这种“使深度学习民主化”的后劲,称其为长期愿景。
然而,如果像 GHN-2 这样的超网络真的成为优化神经网络的规范办法,Veličković 强调了一个潜在的大问题。他说:“你有一个神经网络——实质上是一个黑盒子,再应用图超网络去预测另一个神经网络的参数。当它出错时,你无法解释 [它]。”
当然,在很大水平上这曾经是神经网络的特点了。Veličković 说:“我不会称之为弱点,而称之为正告信号。”
然而,Kipf 看到了一线希望。“一些其余的事物让我对此感到最兴奋,即 GHN-2 展现了图神经网络在简单数据中寻找模式的能力。”
通常,深度神经网络会在图像、文本或音频信号中找到模式,这些是相当结构化的信息类型。而 GHN-2 在齐全随机的神经网络架构图中找到模式。这是非常复杂的数据。
然而,GHN-2 能够泛化——这意味着它能够对看不见的、甚至分布式网络架构以外的参数做出正当的预测。Kipf 说:“这项工作向咱们展现了许多模式在不同的架构中以某种形式类似,并且模型能够学习如何将常识从一种架构转移到不同的架构,这可能会激发一些神经网络的新实践。”
如果是这样的话,它可能会让咱们对这些黑匣子产生新的、更深刻的了解。