4 月 25 日(星期一)至 4 月 29 日(星期五),International Conference in Learning Representations(ICLR)将间断第三年在线举办。它是世界机器学习钻研世界上最大,最受欢迎的会议之一:它蕴含超过一千篇无关主题的论文,包含 ML 实践,强化学习(RL),计算机视觉(CV),自然语言解决(NLP),神经科学等。
1、Autoregressive Diffusion Models
Emiel Hoogeboom, Alexey A. Gritsenko, Jasmijn Bastings, Ben Poole, Rianne van den Berg, Tim Salimans.
一个用于离散变量,自回归新模型。
扩散模型在过来一年中始终在风行,并且它们逐步被排汇到深度学习工具箱中。本文提出了这些模型的重要概念翻新。推理时从采样某种“白噪声”图像开始,扩散模型通过迭代地在像素网格上增加“可微噪声”来生成图像,最终成为一个实在的图像。这项工作倡议做一个相似的过程,但不是在同一时间利用扩散步骤迭代解码所有像素,他们在一次自回归中解码几个像素(见下图)。
此外,与 DALL·E 这样的自回归图像生成办法相比,这种办法在解码图像时不须要特定的排序。或者在每个扩散步骤中解码的像素的数量能够通过模型进行动静调整,并给定固定的步骤来解码整个图像!
对于训练,类 bert 的去噪自编码器自我监督就能够了,给定一幅图像,覆盖一部分像素,并预测其中一些的值。尽管后果不是惊天动地的,但这是扩散模型概念上的一个简略而无效的进化,容许它们解码输入自回归,并实用于非从左到右的文本生成。
https://openreview.net/forum?…
2、Poisoning and Backdooring Contrastive Learning
Nicholas Carlini, Andreas Terzis.
大规模自我监督的预训练与从网络上抓取的数据是训练大型神经网络的基本要素之一。本文探讨了对手如何”毒害“像 CLIP 这样的模型的一小部分训练数据 – 应用来自网络的图像 - 文本对的比照学习进行训练——从而使该模型将谬误分类测试图像。他们尝试了两种办法:
指标批改: 通过增加中毒样本来批改训练数据集,目标是使最终模型对带有谬误特定标签的特定图像进行谬误分类。依据钻研后果,只有输出训练数据集的 0.0001%,例如向 300 万个实例的数据集增加 3 个图像对,就能够实现这一点。
后门攻打: 不是有一个特定的指标图像,这种办法旨在笼罩任何图像上的像素小块,这样就会被谬误分类。这种攻打能够通过批改 0.01% 的训练数据集来继续实现,例如批改 300 万个实例数据集中的 300 张图像。
任何人都能够操纵公共互联网数据,这使这些攻打可行。这依然是在开发和部署模型时应思考的训练模型时的新弱点。
https://openreview.net/forum?…
3、Bootstrapped Meta-Learning
Sebastian Flennerhag, Yannick Schroecker, Tom Zahavy, Hado van Hasselt, David Silver, Satinder Singh.
提出了一种用于元学习的算法,该算法应用梯度从自身或其余更新规定中疏导元学习。许多强化学习算法对超参数的抉择敏感。元学习是一种有心愿的学习范式,用于欠缺学习者的学习规定(包含超参数),以使学习速度更快,更强壮。
在元学习中,优化了外部优化的“学习规定”,该规定间接优化了学习指标(例如,通过梯度降落)。简略地说,现有的元学习算法通常依赖于学习者的体现来评估学习规定: 运行学习者 k 步,如果学习提高了,就多走几步; 如果学习变差了,就少走几步。这个问题应用元学习的学习者的指标的优化变为:(1)限度为学习指标函数的雷同几何形态 (2) 优化是远视的, 因为它只会优化 k 步骤, 而除此之外学习的能源可能会简单得多。
这个过程的实践细节很简单,所以咱们简略来说:首先要求元学习者预测学习者超出评估的 K -Steps 的体现,而后依据这一预测来优化。换句话说,元学习者生成了本人的指标并进行优化。这使得元学习者能够在更长的工夫范畴内进行优化,而无需理论评估长的工夫范畴,因为这步计算是十分消耗资源的。
作者证实了这种办法的一些不错的实践个性,教训后果在 ATARI ALE-Benchmark 上取得了 SOTA,并在多任务学习中进步了效率。
https://openreview.net/forum?…
4、Equivariant Subgraph Aggregation Networks
Beatrice Bevilacqua, Fabrizio Frasca, Derek Lim, Balasubramaniam Srinivasan, Chen Cai, Gopinath Balamurugan, Michael M. Bronstein, Haggai Maron.
消息传递的神经网络(MPNN)的表现力无限,所以论文提出了一个基于将图表示意为多组子图并应用一种等变构造对其进行解决。
如何晓得两个图是否雷同?你可能认为看一眼就足够了,其实雷同的图能够用不同的形式示意,从新组织或容许节点的程序,这样对于给定的两个图,很难辨认它们是否雷同,因为这些图都是同构的。
Weisfeiler-Leman(WL)测试是一种算法,它基于其间接邻域对图的节点进行了递归分类。如果在所有这些过程之后,两个图的节点具备“不同的分类”,则意味着测试失败或者说这两个图是不同的(非同态)。如果两个图在 WL 测试之后“依然雷同”,则它们可能是同构的,但不能保障!有某些图形构造 WL 测试将无奈辨别。
https://openreview.net/forum?…
5、Perceiver IO: A General Architecture for Structured Inputs & Outputs
Andrew Jaegle, Sebastian Borgeaud, Jean-Baptiste Alayrac, Carl Doersch, Catalin Ionescu, David Ding, Skanda Koppula, Daniel Zoran, Andrew Brock, Evan Shelhamer, Olivier Hénaff, Matthew M. Botvinick, Andrew Zisserman, Oriol Vinyals, Joāo Carreira.
论文提出了一种叫 Perceiver IO 通用架构,能够解决来自任意设置的数据,同时随输出和输入的大小进行线性缩放。
这个框架采纳感知器³相似的思路,通过减少一个灵便的查问机制,使模型具备任意大小的输入,而不是在模型完结时要求一个特定于工作的架构。它反对各种大小和语义的输入,从而打消了对特定于工作的体系结构工程的须要。
输出能够是任意长的嵌入序列,这些嵌入序列被映射到潜在数组编码中。鉴于潜在阵列大小是固定的因而该过程容许对很长的输出序列进行建模,因而当输出变长时,并不会呈现复杂度爆炸。在此“编码步骤”之后,模型利用了由自注意力和前馈层组成的 transformer 模块。最初,解码步骤承受输入查问数组,并将其与输出的潜在示意相结合,以产生所需维数的输入数组。
现有许多的学习技术能够利用此架构。该模型遵循现有的每个模态训练方法,在自然语言解决和视觉了解、多任务和多模态推理以及光流方面产生弱小的后果。他们甚至把它插入 AlphaStar(取代现有的 transformer 模块),在具备挑战性的星际争霸 2 游戏中也获得弱小的后果!
https://openreview.net/forum?…
6、Exploring the Limits of Large Scale Pre-training
Samira Abnar, Mostafa Dehghani, Behnam Neyshabur, Hanie Sedghi.
规模始终是 ML 圈内探讨的一个长久的话题。咱们常常强调论文,因为这无疑是该畛域必须解决的重要问题之一: 在哪里增加参数和数据就不再有用了? 论断差不多就是“当咱们减少上游的准确性时,上游工作的体现就会饱和”。
论文钻研了上游工作 (如大规模 ImageNet 标签) 的训练前体现如何转移到上游 (DS) 工作(如鲸鱼检测)。而后对大量的架构和规模做这个试验:
“在 ViT、MLP-Mixers 和 ResNets 上的 4800 个试验,参数的数量从 1000 万到 100 亿不等,在可用图像数据的最大规模上进行训练”。
乏味的图显示了上游和上游绩效间的关联。简直在所有畛域,它最终会饱和。尽管如此,看到计算机视觉不同架构之间的差别还是十分乏味的!
作者宣称,他们的察看后果总体上对诸如上游数据的大小以及构造抉择等仿佛是持重的。他们还摸索了超参数抉择的影响: 是否有些超参数对于上游十分无利,但却不能无效地转化为上游工作? 是的! 他们在第 4 节深入研究了这一景象,发现例如,weight decay 是一个特地显著的超参数,它对的体现有不同的影响。
在不从头开始训练模型而是抉择事后训练的模型来疏导应用程序的状况下,这项钻研是要害。这篇文章的内容远不止几段话那么简略,如果你想深刻理解,它相对值得一读!
https://openreview.net/forum?…
7、Language modeling via stochastic processes
Rose E Wang, Esin Durmus, Noah Goodman, Tatsunori Hashimoto.
论文引入了一个通过潜在随机过程隐含布局的语言模型。
古代大型生成语言模型十分善于编写短文本,但当它们生成长文本时,全局一致性往往会丢失,事件不再有意义。本文提出了一种加重这种状况的办法。
该模型被称为工夫管制,它将句子示意模型为潜在空间中的布朗运动。在训练中,给定两个开始和完结的锚句,一个比照损失是由一个在锚句内的肯定句造成的这个肯定句落入了锚句在潜在空间中的 ” 布朗桥 ” 表征中,而后把负样本推出去。布朗桥: 一个起始和完结地位固定的布朗 (摇晃) 轨迹。
对于推理,通过对潜在空间中的布朗过程进行抽样,生成一个句子级的打算,而后在这个高级打算的条件下生成标记级的语言。
钻研后果十分乏味,尤其是在语篇连贯准确性方面,工夫管制施展了重要作用。这项工作为 lm 克服经典限度提供了一个不须要进入万亿参数尺度范畴有前途的方向。
https://openreview.net/forum?…
8、Coordination Among Neural Modules Through a Shared Global Workspace
Anirudh Goyal, Aniket Didolkar, Alex Lamb, Kartikeya Badola, Nan Rosemary Ke, Nasim Rahaman, Jonathan Binas, Charles Blundell, Michael Mozer, Yoshua Bengio.
受大脑启发的模块化神经构造正在衰亡; 只管它们在风行的计算机视觉或自然语言解决基准上没有获得相似人类的胜利,但它们在健壮性、域外泛化、甚至学习因果机制方面都显示出了可喜的后果。
Global Workspace Theory(GWT)是一个被提议的认知架构,用来解释人类无意识和有意识的思维过程是如何体现的。它的外围假如之一是存在一个所有业余模块都能够拜访的共享工作空间,从而在其余孤立的模块之间实现一致性。本文概念化了一个神经网络体系结构,专家神经网络解决一组输出,而后写入一个共享的工作空间——一组向量——而后再播送给其余专家。
这听起来可能比理论状况更神奇。例如有一个解决输出序列的 Transformer,能够将地位操作概念化为专家操作。共享工作空间强加了一个条件,即容许在共享全局工作空间中更新多少更新的暗藏状态,从而施加肯定水平的稠密性,这已被证实能够进步鲁棒性和域外泛化。
与通常的这类工作一样,它们在不那么风行的工作和评估模式上体现良好,但在域内评估方面不会超过繁多网络,所以它们不会成为很多头条新闻。然而这依然是一项值得关注的并且十分乏味的工作。
https://openreview.net/forum?…
9、Learning Fast, Learning Slow: A General Continual Learning Method based on Complementary Learning System
Elahe Arani, Fahad Sarfraz & Bahram Zonooz.
由 Daniel Kahneman 遍及的人类思维模式的二分法——疾速和迟缓——是人类思维形式的外围。本文从这个想法中取得灵感,构建一个利用疾速和迟缓学习来进步继续学习的体系结构。
继续学习是一种通过将模型裸露于新数据或与动静环境交互来逐渐扩大其常识的办法。例如,思考一个模型,它最后只学会对数字 0 到 7 的图像进行分类,并被教诲辨认数字 8 和 9,而不会遗记后面的数字。其指标是可能利用现有常识更无效地学习新事物,就像人类所做的那样。
为本文提出了一种针对长、短两个时间尺度的记忆体验回放零碎。其中一个次要的翻新是语义记忆的应用: 两个神经网络代表可塑性和稳固的模型。为了实现疾速和短时间的学习,稳固模型由疾速模型的指数挪动均匀组成: 这使得两个模型具备统一的权值,但稳固模型的演变比可塑性模型更慢更平滑,因为可塑性模型对最新数据更敏感。这种办法也被用于其余场合,比方 BYOL 的比照学习中。储层作为情景记忆,保留数据流的样本,加重灾难性忘记。
试验显示,在以下 3 个工作上表现出色:
- 类别增量学习: 在一个分类设置中逐渐减少新的类别。
- 畛域增量学习: 在不增加新类的状况下引入数据的散布转移。
- 通用增量学习: 将模型裸露给新的类实例和数据的疾速散布,比方 MNIST 分类工作中的旋转数字。
https://openreview.net/forum?…
10、Autonomous Reinforcement Learning: Formalism and Benchmarking
Archit Sharma, Kelvin Xu, Nikhil Sardana, Abhishek Gupta, Karol Hausman, Sergey Levine, Chelsea Finn.
大多数 RL 基准测试是偶发性的: 代理通过在每次代理失败时齐全重新启动的环境中执行工作来学习。人类很少在这种环境中学习: 当咱们从新尝试做某事时,环境不会从新开始! 如果机器人注定要呈现在事实世界中,为什么咱们还要在章节基准中评估大多数 RL 算法?
这项工作提出了一个专一于非情景性学习的基准,作者称之为 Autonomous Reinforcement Learning(EARL),并心愿它相似于真实世界。
从技术上讲,EARL 是传统 RL 的一个子集,在这种 RL 中,环境随着代理的交互而一直演变,而不是在每一集完结时从新设置。然而在实践中很少这样做,因而这项工作通过为强化学习的模式 (例如,学习代理、环境、处分、政策评估、干涉等概念的定义和数学公式) 奠定了根底。
https://openreview.net/forum?…
援用
[1]“The Arcade Learning Environment: An Evaluation Platform for General Agents”by Marc G. Bellemare, Yavar Naddaf, Joel Veness, and Michael Bowling; 2012.
[2]“Learning Transferable Visual Models From Natural Language Supervision”by Alec Radford et al. 2021.
[3]“Perceiver: General Perception with Iterative Attention”by Andrew Jaegle et al. 2021.
[4]“Zero-Shot Text-to-Image Generation”by Aditya Ramesh et al. 2021.
[5]“Bootstrap your own latent: A new approach to self-supervised Learning”by Jean-Bastien Grill et al. 2020.
[6]“Recurrent Independent Mechanisms”by Anirudh Goyal et al. 2021.
[7]“Hierarchical Perceiver”by Joao Carreira et al. 2022.
https://www.overfit.cn/post/7faf217fd54f45bfb33cd791fc3f83e4
作者:Sergi Castella i Sapé