很久没有举荐论文了,然而在举荐新论文之前,首先举荐一个新闻:
谷歌分享了公司外部如何应用代码生成案例,3% 的新代码是由语言模型 (Language Model)、DeepSpeed (DeepSpeed) 编写的,通过语言模型生成代码的智能倡议,倡议承受率约为 25%,缩小了 6% 的编码迭代工夫,均匀每个承受的倡议为 21 个字符:
https://ai.googleblog.com/202…
这才是 AI 在真实世界的利用,并且正在向着更好的方向后退,而不是像某些人成天吹牛的代替这个、代替那个。
咱们回到正题,本次举荐的 10 篇论文包含:强化学习(RL)、缩放定律、信息检索、语言模型等。
1、Beyond neural scaling laws: beating power law scaling via data pruning
Ben Sorscher, Robert Geirhos, Shashank Shekhar, Surya Ganguli, Ari S. Morcos.
缩放定律是古代神经网络中普遍存在的教训景象,其中误差被认为是训练集大小、模型大小或两者的幂次。有一些人认为他是正确的,并且设计了一个专一于扩充规模的钻研方向。但还有大部分人认为,肯定有方法在不超大规模的模型和数据的状况下建设更好的模型。这篇论文探讨了一种可能进步神经网络性能,“战败”缩放定律的数据剪枝技术。
在这项工作的背景下,剪枝是指从训练数据集中删除训练数据样本而不是修剪神经网络的权重。提出的办法背地的实践很简略:能够在“易于学习”到“难以学习”的训练数据集中对样本进行排名。一个典型的数据集将蕴含太多易于学习的样本——也就是说,更少的样本就足以在这些样本上达到良好的性能——而来自难以学习的样本又太少——这意味着须要更多的样本来适当地训练模型。
解决这个问题的一种办法是扩充整个训练数据集的规模,因为给定足够大的规模——假如数据分布是平均的——最终你会失去足够多的“难以学习”的样本。但这是十分节约的。如果咱们能够应用先验来确定一个蕴含易于学习和难以学习样本的更好均衡的训练数据集,后果会怎么样呢? 这就是这篇论文所钻研的问题。
这个问题能够形式化为试图找到一个修剪度量调配给每个训练样本,而后依据该度量排序并修剪训练数据集到所需的大小。他们在这篇论文中提出了一个新的衡量标准,能够与现有的须要标记数据的工作相媲美。
这篇论文中最乏味的奉献是他们对于无标签数据修剪的局部。他们对预训练的 ImageNet 模型的嵌入进行 k -means 聚类,并将每个样本的“硬度”定义为其到最近的质心的间隔: 容易学习的原型样本将最靠近质心,而难以学习的样本将远离它们簇的质心。结果表明,大概 20% 的 ImageNet 训练样本能够在不就义性能的状况下进行修剪。
这篇论文的后果并不令人瞠目,但它背地的要害思维有可能在其余工作中有用,如图像宰割、语言建模或任何其余多模态数据集治理。
2、Denoised MDPs: Learning World Models Better Than the World Itself
Tongzhou Wang, Simon S. Du, Antonio Torralba, Phillip Isola, Amy Zhang, Yuandong Tian.
许多机器学习技术的外围是从噪声中辨认相干和有用的信号 (或模式) 的能力。
在强化学习的背景下,这项工作通过辨认 agent 可控的和与处分相干的信息,形式化了“好的信息与不相干的信息”的问题,如下图所示。
基于这一思维,作者提出了去噪 MDPs(马尔科夫决策过程),这是一种学习状态示意的因数分解的办法,该办法利用信息论原理拆散了状态的可控和处分。它的要点是,状态的不同因素应该最大或最小地预测其余因素,这取决于它们的关系,基于以上的实践作者为代理优化设置一个变分指标。
其后果是一个世界模型,该模型明确地建模了哪些信息应该被抛弃为噪声,以及哪些信息应该用于为代理的决策建模。作者证实了这种办法在 DeepMind 套件中是如何进步性能的,并且他们定性地展现了去噪 MDP 示意是如何工作的,通过训练一个解码器重构输出,能够了解状态的信号示意学习捕获什么。
3、Parameter-Efficient Prompt Tuning Makes Generalized and Calibrated Neural Text Retrievers
Weng Lam Tam, Xiao Liu, Kaixuan Ji, Lilong Xue, Xingjian Zhang, Yuxiao Dong, Jiahua Liu, Maodi Hu, Jie Tang.
在过来的几年中,Prompting 在 NLP 方面获得了长足的提高,当初它在信息检索方面仿佛也有了提高。
Prompting 调优是一种通过向序列模型的输出增加可训练的 Prompting 标记,使事后训练的解冻模型适应给定工作的技术。与更常见的残缺模型微调相比,这种办法的次要长处之一是,它只须要从新训练一小部分参数,这样效率更高,而且能够进步原始预训练模型的可重用性。
他们训练 Dense Passage Retriever (通过查问和文档嵌入的最近邻搜寻进行检索)和带有前期交互的 ColBERT 模型 (包含查问和文档的联结建模) 的办法不是微调整个模型,他们只微调一个 Prompting,同时放弃预训练的 LM 权重都是解冻的。通过实现基于 P -Tuning v²办法,可训练的 Prompting 不仅被增加到输出,而且还被增加到 Transformer 的每一层。
后果中最乏味的局部是泛化。只管在域内基准测试中,Prompting 调优的性能与 fine-tuning 相当,但它在各种来自 BEIR³基准测试的跨域数据集上的性能要好得多。
这项钻研再次强化了:Prompting 是 fine-tuning 的可行代替计划,而且可能会越来越受欢迎。
4、DeepSpeed Inference: Enabling Efficient Inference of Transformer Models at Unprecedented Scale
Reza Yazdani Aminabadi, Samyam Rajbhandari, Minjia Zhang, Ammar Ahmad Awan, Cheng Li, Du Li, Elton Zheng, Jeff Rasley, Shaden Smith, Olatunji Ruwase, Yuxiong He.
DeepSpeed——微软开发并应用的用于大型神经网络大规模分布式训练的框架——当初除了训练,还用于推理。
大型 transformer 架构在过来的一年里曾经多样化,它们的通过大尺寸减少了表达能力,在推理时只应用与输出相干的权值子集,这使它们更高效 (如果实现也通过优化的话!) 然而毛病也很显著,无效地训练和运行这些模型波及更多的内容,因为大多数现有的深度学习库和硬件在设计时都没有应用这种类型的计算。
DeepSpeed 之前是为训练大型 transformer 而设计的,但最新的更新则侧重于在所有类型的 transformer(包含稠密激活的架构)上进步推理的提早和吞吐量。
论文议论的是一个可能在数百个 GPU、CPU 和 NVMe 内存规模的异构硬件上实现并行的零碎,它可能应用无奈在 GPU 内存中独自载入的大型模型实现高速推理。
只管大多数浏览这篇文章的人素来没有必要应用这样的框架来训练万亿规模的模型,但如果对训练和运行大规模神经网络工程感兴趣,能够看看这篇论文
5、Language Models (Mostly) Know What They Know
Saurav Kadavath et al.
性能远非 ML 模型惟一的指标。精确地晓得他们对本人的输入的确定水平可能更重要,尤其是在以平安为重点的应用程序中。
Calibration 是机器学习中的概念,用于表明一个模型的预测置信度有多好(例如,一个具备 90% 确定性输入的完满校准模型应该是正确的 9 /10 次,不少也不会不多)。
这项工作首先钻研了 lm 答复问题的 Calibration,假如一个繁多的令牌是一个答案,概率能够间接从模型输入的可能性计算。
尽管 lm 对格局十分敏感,但只有给出适当的问题公式,大型 lm 就会失去很好的 Calibration。乏味的是,这种能力在较小的范畴内解体(见下图)。
这篇论文深入探讨了更多的比拟和剖析模式,但论断依然是:lm 晓得他们所晓得的,但后果依然很容易受到影响,而且模型须要足够大。
6、Towards Grand Unification of Object Tracking (Unicorn🦄)
Bin Yan, Yi Jiang, Peize Sun, Dong Wang, Zehuan Yuan, Ping Luo, Huchuan Lu.
在过来的几年中,整顿和对立机器学习模型架构在 NLP 中被证实是行之有效的,当初他曾经延申到视频计算机视觉工作了。
当波及到视频相干的工作时,现有的体现最好的模型依然偏向于依赖于工作特定的设计,后果是适度专一于他们的特定应用程序。
作者提出了一个繁多的模型架构,在 4 种模式下进行指标跟踪: 单指标跟踪 (SOT),多指标跟踪(MOT),视频对象宰割(VOS) 和多指标跟踪和宰割(MOTS)。
这个架构相当简单,通过上面的图(也不肯定能说分明。。。)。在大抵上,它从一个对立的骨干嵌入图像开始,而后为参考帧和以后帧计算一个对立的嵌入。Transformer 用于对立嵌入和以后帧之间的特色交互,输入对应于所有对象跟踪格调的类、框和掩码。
该零碎在几个对象跟踪基准上进行了基准测试,如 LaSOT、TrackingNet、MOT17、BDD100K(和其余),并在其中大多数上获得了最好的性能。
7、Scaling Laws vs Model Architectures: How does Inductive Bias Influence Scaling?
Yi Tay, Mostafa Dehghani, Samira Abnar, Hyung Won Chung, William Fedus, Jinfeng Rao, Sharan Narang, Vinh Q. Tran, Dani Yogatama, Donald Metzler.
作者执行了数百个跨尺度的试验,宽泛的架构包含经典的和改良的 Transformers,MLP mixer,和基于卷积的模型。试验包含应用自回归语言建模进行预训练(上游性能),而后监督微调 GLUE、SuperGLUE 和 SQuAD(上游性能)。
后果很简略。在所有缩放机制中,经典的 Transformer 都不是最佳抉择,但它在不同缩放机制中显示了最强壮和统一的性能后果。
卷积和基于 mlp 的架构在预训练 (上游性能) 方面做得很好,但在微调时无奈取得相应的性能。这就指出了架构演绎偏差在迁徙学习中的重要性。
改良后的 Transformers 只有在肯定的规模下能力与同类产品竞争,而且如果规模足够大,则会变差。
8、Discrete Key-Value Bottleneck
Frederik Träuble, Anirudh Goyal, Nasim Rahaman, Michael Mozer, Kenji Kawaguchi, Yoshua Bengio, Bernhard Schölkopf.
ML 中的重点将缓缓转移到域外泛化,演绎偏差将变得更加相干。
将高维输出(例如,图像)编码为在大数据集中事后训练的编码器的嵌入。将嵌入合成为低维头部 C,并从训练时被解冻的一组预约义向量中寻找最近邻。而后利用最近邻在头部上的示意来重建嵌入。解码器将重建的嵌入作为输出,并产生特定于工作的输入:
该试验集中在为一个散布的训练数据上进行训练的模型,适应另外一个新的散布,如下图所示。该模型是通过在 I.I.D 上进行训练来初始,当使模型适应新的散布时,解码器被解冻,只更新 codebook。
他们的试验证实了这种办法如何缩小灾难性忘记,并取得更持重的预测。这项工作不会有很大的短期影响——后果不是开创性的——但其中一些想法可能是下一个飞跃的要害催化剂。
9、Language Model Cascades
David Dohan, Winnie Xu, Aitor Lewkowycz, Jacob Austin, David Bieber, Raphael Gontijo Lopes, Yuhuai Wu, Henryk Michalewski, Rif A. Saurous, Jascha Sohl-dickstein, Kevin Murphy, Charles Sutton.
大型语言模型曾经变得很弱小,它们越来越多地被用作其余利用 (如强化学习或数据加强) 的黑盒构建块。
这项工作从概率编程的角度形式化了语言模型的交互: 随机变量的定向图模型,它映射到自然语言字符串。
10、ZeroC: A Neuro-Symbolic Model for Zero-shot Concept Recognition and Acquisition at Inference Time
Tailin Wu, Megan Tjandrasuwita, Zhengxuan Wu, Xuelin Yang, Kevin Liu, Rok Sosič, Jure Leskovec.
ZeroC 是一种将概念示意为组成模型的图办法。本文的次要目标是建设一个可能在推理时辨认不可见概念的零碎。例如在上面的图中,字母 F 没有被模型看到,但它可能解开它的组件 (线) 和它们的关系(角度和地位),将它们示意为一个蕴含 3 个节点和 3 条边的显式图
训练这样一个零碎的办法依赖于基于能量的模型(EBMs): 输出正图像 / 图示意对和负图像 / 图示意对,最小化正图像对的能量。试验表明,在根本形态和关系相当简略的环境中获得了胜利,这代表了向学习构造丰盛的示意迈出的第一步,在少样本学习和泛化的背景下,这可能会变得有用。
https://avoid.overfit.cn/post/b04efbf62c86430ca388888496cdd88b
作者:Sergi Castella i Sapé