乐趣区

关于深度学习:2022-年-1-月推荐阅读的四篇深度学习论文

自举元学习到深度学习的工夫序列预测,外推与泛化之间的关系与 Ridge Rider 摸索多样化最优

‘Bootstrapped Meta-Learning’

Flennerhag et al. (2021) | 📝 https://arxiv.org/pdf/2109.04…

元学习算法旨在主动发现演绎偏差,这容许在许多工作中疾速适应。经典示例包含 MAML 或 RL^2。个别状况下这些零碎是针对双层优化问题进行训练的,疾速的外部循环中只思考单个工作实例化,在第二个慢的内部循环,零碎通过对许多内循环的单个工作进行批处理来更新权重,零碎会主动发现和利用工作的底层构造。然而大多数状况下内部更新必须通过外部循环更新过程来流传梯度,所以会呈现两个问题:应该如何抉择内循环的长度?应用短长度会更容易优化,然而会导致视线过短;如果长度过长可能会呈现梯度隐没和爆炸的问题导致元指标可能体现不稳固。那么咱们如何能力克服这种短视和优化艰难呢?自举(Bootstrapped)元学习倡议通过运行外部循环稍长一点来构建所谓的自举指标,而后将由此产生的网络作为老师为视线较短的学生提供训练服务。与 DQN 相似,自举指标与计算图拆散,只是在损失计算中充当固定量。论文中说到,该办法基本上将元学习办法向前进行了推动,通过比拟专家和学生的度量能够进一步管制元指标的曲率。在一组测试的 RL 试验中,作者表明,只管视线很短,但自举能够实现疾速的摸索适应,并且它优于具备较长视线的一般元梯度。与 STACX 元梯度代理一起,自举元梯度提供了一种新的 ATARI SOTA,也能够利用于多任务少样本学习。总而言之,这项工作为如何踊跃地进行元学习问题公式开拓了许多新视角。

‘N-Beats: Neural Basis Expansion Analysis for Interpretable Time Series Forecasting’

Oreshkin et al. (2020)| 📝 https://arxiv.org/abs/1905.10437 | 🤖https://github.com/ElementAI/…

传统的工夫序列预测模型,例如 ARIMA 是来自金融计量经济学畛域,它依赖于趋势和季节性成分的拟合挪动平均线。这样的模型往往只有很少的参数,同时放弃清晰的可解释性。然而最近一段时间将循环神经网络与可微预测相结合的混合模型变得越来越风行。这种形式容许灵便的函数拟合,同时放弃更经典办法的演绎偏差,是否能够训练基于纯深度学习办法的预测者呢?在 N-Beats 中,作者介绍了一种用于单变量工夫序列预测的新网络架构,它在 M3、M4 和 tourism 基准上建设了新的 SOTA。该架构由多个残差块堆栈组成,它们同时执行预测和逆推。各个堆栈的局部预测被合并到工夫范畴的最终预测中。单个预测块能够通过学习或固定为适合并且可解释的函数模式,例如能够是低维多项式或用于捕获季节性成分的趋势或周期函数。作者将他们的办法与集成技术相结合,合并在不同指标、输出窗口和随机初始化上训练的模型。作者还表明,随着增加更多堆栈,性能增益会饱和,并通过视觉剖析固定根底堆栈预测的确是可解释的。

‘Learning in High Dimension Always Amounts to Extrapolation’

Balestriero et al. (2021) | 📝http://arxiv.org/abs/2110.09485

神经网络(NN)只能学习插值吗?Balestriero 等人认为:为了解决高维工作,神经网络必须进行外推。他们的推理依赖于插值的简略定义,也就是说只有数据点落入察看到的训练数据的凸包内就会产生插值。随着原始输出空间的维数线性增长该空间的体积以指数速度增长,这种景象通常被称为维度劫难(咱们人类在 3D 空间之外的几何直觉的可视化中苦苦挣扎)。如果数据位于低维流形上怎么办?那么是否有可能躲避维数劫难并仅用几个样本取得插值的办法呢?在一组综合试验中,作者表明:真正重要的不是流形的原始维度,而是所谓的本征维度(intrinsic dimension)——即蕴含数据流形的最小仿射子空间。他们表明对于常见的计算机视觉数据集,随着输出维数的减少,测试集样本蕴含在训练集的凸包中的概率迅速升高。作者还强调这种景象存在于神经网络嵌入或不同的降维技术中,在所有状况下当思考更多输出维度时,插值百分比都会升高。那么这能通知咱们什么呢?为了让神经网络胜利解决工作,它们必须在“外推”机制下运行!但并非所有人都像其他人一样概括。因而,这开启了对于这种特定的外推概念与更广泛的概括之间关系的新问题。例如,数据加强和正则化表演什么角色?

‘Ridge Rider: Finding Diverse Solutions by Following Eigenvectors of the Hessian’

Parker-Holder et al. (2020) | 📝 https://arxiv.org/abs/2011.06505| 🤖 https://colab.research.google…

古代深度学习问题通常须要解决许多部分最优解,而梯度降落已被证实偏差于简略的高曲率解决方案。这个问题的经典例子包含计算机视觉中的形态与纹理最优和曾经训练好的自我对战策略不能推广到新的玩家中。优化过程在哪个部分最优中完结取决于许多任意因素,例如初始化、数据排序或正则化等细节。如果咱们不是试图取得繁多的最优值,而是同时摸索一组不同的最优值呢?Ridge Rider 算法目标是通过迭代地跟踪具备负特征值的 Hessian 特征向量(即所谓的脊)来做到这一点。作者表明只有特征向量沿着轨迹平滑变动,这个过程就能够缩小部分损失,通过遵循这些不同的山脊,Ridge Rider 可能在表格 RL 和 MNIST 分类的上下文中笼罩许多不同的部分最优值。作者还表明 Ridge Rider 还能够在无需拜访潜在的问题对称性的状况下帮忙发现最佳的零样本协调策略。Ridge Rider 将间断优化问题转化为对不同山脊的离散搜寻。它为持重优化开拓了一个有前途的将来方向。然而对于该办法的可扩展性,包含无效的特色合成和多个特征向量的同时摸索,依然存在许多悬而未决的问题。

本月举荐的 4 篇论文专业术语太多了,所以只翻译的并不好,如果你对以上论文感兴趣,请浏览英文原文。

作者:Robert Lange

退出移动版