关于深度学习:论文推荐在早期训练阶段预测下游模型性能

4次阅读

共计 1338 个字符,预计需要花费 4 分钟才能阅读完成。

预训练大规模深度神经网络 (NN),并针对上游工作进行微调已成为深度学习畛域的现状。钻研人员面临的一个挑战是如何为给定的上游工作无效地抉择最合适的预训练模型,因为这个过程通常须要在模型训练中用于性能预测的低廉计算成本。

在新论文 Neural Capacitance: A New Perspective of Neural Network Selection via Edge Dynamics 中,来自 Rensselaer Polytechnic Institute、Thomas J. Watson 钻研核心和加州大学洛杉矶分校的钻研小组提出了一种针对上游工作的无效神经网络抉择的新框架。该办法利用模型的累积信息来预测模型的预测能力,在神经网络训练的晚期阶段这样做能够节俭资源。

该团队总结了他们的论断:

  • 将神经网络训练看作是一个基于突触连贯的动静零碎,并首次从宏观角度钻研突触连贯的相互作用。
  • 提出了用于神经网络模型抉择的神经电容度量 βeff。
  • 基于 5 个基准数据集的 17 个预训练模型的试验结果表明,咱们的 βeff 办法优于现有的学习曲线预测办法。
  • 在 CIFAR10/CIFAR100/SVHN/Fashion MNIST/Birds 上,依据训练前模型的性能,论文的办法比最佳基线进步了 9.1/38.3/12.4/65.3/40.1%。

论文所提出的框架基于这样的思维,即神经网络训练期间的反向流传等效于突触连贯(边缘)的动静演变,并且收敛神经网络与由这些边缘组成的网络系统的均衡状态相关联。它还借鉴了以前的钻研,表明简单的事实世界零碎(例如动物 - 传粉媒介的相互作用和 COVID-19 的流传)能够用图网络进行示意。

钻研人员将 NN 训练视为突触连贯上的动静零碎并首次以宏观形式摸索这些突触连贯相互作用。他们提出“βeff”作为表征生物和人工神经网络的通用神经电容度量(neural capacitance metric),能够为可训练权重构建线图并以与个别动静零碎雷同的模式重新制定训练动静零碎,使 βeff 属性可能在训练过程的晚期阶段通过大量察看预测图神经网络的最终准确性。

该团队在 17 个预训练 ImageNet 模型上评估了他们的框架,包含 AlexNet、VGGs (VGG16/19)、ResNets (ResNet50/50V2/101/101V2/152/152V2)、DenseNets (DenseNet121/169/201)、MobileNets (MobileNet 和 MobileNetV2),Inceptions(InceptionV3,InceptionResNetV2)和 Xception。他们还将基于 βeff 的办法与其余各种模型排名基线进行了比拟。

在试验中,基于神经电容 βeff 的办法优于以后的学习曲线预测办法,并在 CIFAR10/CIFAR100、SVHN、Fashion MNIST 和 Birds 数据集的最佳基线上获得了显着的绝对改良。

后果验证了 βeff 作为基于晚期训练后果预测一组预训练模型的排名的无效指标。团队打算在将来摸索更多的相干钻研方向,例如简化邻接矩阵 P 以捕获突触连贯之间的依赖和互相交互,将框架扩大到 NAS 基准以抉择最佳子网络,以及设计一种高效的算法间接 基于 βeff 优化 NN 架构。

本文作者:Hecate He

正文完
 0