NVidia 的新 H100 GPU 曾经公布了,咱们也很久没有发论文举荐了,这是 4 月份的论文举荐:Google 的 5400 亿参数 PaLM、Pathways、Kubric、Tensor Programs、Bootstrapping Reasoning With Reasoning、Sparse all-MLP 架构、应用深度学习制作人脸动画等等。
1、Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer
By Greg Yang, Edward J. Hu et al.
超参数调优是创立 SOTA 模型的重要因素。对于大型模型,这通常须要大量的计算资源,这使得资源无限的小型参与者根本无法进入这一畛域。论文的这项工作展现了如何更无效地实现超参数调整。
为了训练神经网络,必须抉择适合的超参数。在前几年,超参数只有少数几个(例如固定学习率、卷积核大小等),但当初超参数空间变得更加简单:学习率激活函数、学习率打算、优化器抉择、注意力头的数量、暗藏维度 等等。
论文中提到的办法能够在小型模型中找到最佳超参数,而后扩大模型到大型模型进行最终的资源密集型训练运行。这种称为 μTransfer 的办法不仅基于实践剖析,并且可证实在某些条件下无效,作者也凭教训表明,通过在古代 Transformer 上应用该技术,这种办法能够更宽松地利用。
作者也提到,这种办法依然存在许多局限性,但它为促成大型模型的训练,甚至对现有模型的进一步优化,甚至在数万亿参数规模上实现下一代更大型模型的超参数调整提供了一个乏味的方向.
2、Visual Prompt Tuning
By Menglin Jia, Luming Tang, et al.
对于当初的大型模型而言人们不会从头开始构建模型,而是应用事后训练的模型进行微调。上游工作中最大限度地利用大型预训练模型同时计算成本低的技术将是要害。Prompt 就是这样一种技术。
作者探讨了各种“局部调整”技术如何在调整参数 / 性能比的百分比方面进行比拟。大型预训练模型通过应用标记数据和在整个架构中流传梯度来进行微调。然而在过来的一年中,prompt 已成为一种可行的代替计划:放弃事后训练的模型权重不变,并在输出中事后增加一组嵌入,这些嵌入能够通过梯度降落和一些标记数据来学习。
这种技术已被证实在 NLP 工作上是无效的,当初正被用于图像分类,它不仅在效率方面而且在相对准确度方面都体现出十分有竞争力的性能。更重要的是,Prompt 在 few-shot 的状况下最为突出,在这种状况下,齐全微调通常很艰难。Prompt 的另一个益处是,它能够预训练模型概念化为输出 / 输入黑盒,训练一个只能通过 API 拜访的模型(应用无梯度优化⁷,或在梯度可用时进行梯度降落),这是行业正在倒退的方向。
3、Pathways: Asynchronous Distributed Dataflow for ML and PaLM: Scaling Language Modeling with Pathways
By Paul Barham et al.
如果你认为大规模扩大的工具将是将来 AI 不可短少的一部分,那么这是你所须要的谷歌对将来的打算。它蕴含了最新的 5400 亿参数的微小 Transformer。
本文是 Google 的 Pathways 的将来门路蓝图,“用于硬件加速器的大规模编排层,可在数千个加速器上进行异构并行计算,同时通过其专用互连协调数据传输。”
现有的加速器框架善于在数据的不同局部并行运行雷同的计算,这些局部稍后会同步(又名单程序多数据,SPMD)。Pathways 旨在可能并行计算更多异构计算(又名多程序多数据,MPMD)。
这使得训练和托管模型成为可能,比方刚刚公布的 5400 亿个参数 (密集) 的 PaLM: Scaling Language Modeling with Pathways⁶,它是在逾越多个 pod 的 6144 个 TPU v4 芯片上进行训练的。这种密集模型是最新的旗舰产品,它在许多零和少样本的 NLP 工作中实现了最先进的技术,在过程中超过了许多人类的基线。
4、STaR: Selt-Taught Reasoner. Bootstrapping Reasoning With Reasoning
By Eric Zelikman, Yuhuai Wu, and Noah D. Goodman.
逻辑推理常常被认为是大型语言模型 (LM) 的一个弱点:尽管它们有时可能会做对,但常常在根本常识推理方面失败。本文提出了一个有心愿的方向,兴许能够开释语言建模的后劲,并将其用于更高级的类人推理。
基本原理是对信念或采取行动的起因进行明确逻辑解释。尽管之前的工作曾经证实:明确的实践能够如何在一些场景中进步 lm 的性能⁵,但这项工作展现了如何在不依赖大规模人工标记正文的状况下疏导推理能力。
作者只应用了一个问题解决语料库(没有人类的基本原理),让 LM 为其答案生成基本原理,只有答案是正确的,这些基本原理就被认为是无效的。依据作者的说法,这是一个协同过程,实践根底生成改良了训练数据,而训练数据的改良也扭转了模型的实践根底生成。为了避免此过程饱和,当模型无奈解决训练数据中的任何新问题时,模型会提供答案,而后模型会向后生成一个基本原理并将其增加为训练数据。
试验后果并不能被宽泛的推广,但它们确实呈现了十分好的体现:学习速度更快,推理性能与 30 倍大的 GPT-3 模型相当。STaR 零碎显著优于它的一般的、没有理解能力的、只针对问题解决方案对进行训练的同类零碎。
5、Do As I Can, Not As I Say (SayCan): Grounding Language in Robotic Affordances | Project page
By Michael Ahn et al.
不足事实世界的根底是对现有语言模型的广泛批评:如果不与视觉等其余模态的察看和交相互联合,任何模型如何对语言有任何有意义的了解?
人类用户向机器人提供的指令可能很长、很形象,甚至是不置可否的。LM 的作用是将指令歧义化为更短的原子步骤。这与之前应用预训练语言模型将高级指令映射到低级动作的工作十分类似¹⁰,然而不是仅仅依赖于模仿,而是通过包含了事实世界的机器人理论的打算,这项工作又向前迈进了一步。
最近应用预训练语言模型来领导图像学习示意的另一项乏味的工作是 Integrating Language Guidance into Vision-based Deep Metric Learning(arxiv 2203.08543)
6、Latent Image Animator: Learning to Animate Images via Latent Space Navigation
By Yaohui Wang, Di Yang, Francois Bremond, and Antitza Dantcheva.
通过深度学习的生成真切动画是十分酷炫的,如果它持续倒退可能将成为游戏和 VR 等利用的一项根本技术。
现有的基于深度学习的图像动画框架通常依赖于图像的结构化示意: 人的关键点、光流、3D 网格等等。本论文提出了一种潜在图像动画器(LIA),它只依赖于一个自监督图像主动编码器,而没有任何显式结构化示意。定义了一种线性静止合成(Linear Motion Decomposition),旨在将视频中的静止形容为一种潜在的门路,这种门路是通过一系列学习到的静止方向和幅度的线性组合来实现的。
该办法由编码器和生成器两个模型组成。对于训练,视频的 2 帧被用作数据的自我监督源,让模型将一个对象的不同视图编码成它的身份和可分解的静止局部,生成器将其用于输入一个图像,并从中计算重构损失。为了进行推理,将源图像和姿态图像替换为不同的人,模型生成的输入图像具备源的身份,但具备姿态图像的姿势。
7、Efficient Language Modeling with Sparse all-MLP
By Ping Yu et al.
架构在 ML 中的作用是否会进一步放大?论文的答复是:是的。
Pay attention to MLPs¹ 曾经向咱们展现了“无注意力架构”在语言建模中具备竞争力,令牌之间的信息通过 MLPs 的更根本组合进行流传。这项工作将这一想法扩大为在稠密的专家混合模型中工作,并且具备更强的缩放能力。
论文剖析了 MLP 在表达能力方面的局限性并提出了在特色和输出(令牌)维度上具备混合专家 (MoE) 的稠密激活 MLP。与以前用于视觉 all MLP architectures²相似,跨令牌和令牌外部的信息是通过按令牌利用全连贯 (FC) 层,而后转置 / 混合,而后按特色利用 FC 实现的(见下图)。
8、Kubric: A scalable dataset generator
By Klaus Greff et al.
当天然标记数据十分艰难或破费十分高时,合成数据是一个疾速便宜的解决方案。这篇论文时建设一个可能端到端创立计算机视觉数据库的最新成绩。
数据生成软件不如其建模软件成熟,这就是为什么作者认为在数据生成工具方面须要更多致力。Kubric 是一个开源 Python 框架,它与 PyBullet(物理模仿引擎)和 Blender(渲染引擎)接口,以生成具备细粒度管制和密集正文的真切场景。
典型的数据生成管道(见下图)联合了从资源起源获取资源、用这些资源组成场景以及摄像机定位、在环境中运行物理模仿,并将其渲染为具备所需正文和元数据的不同层。
该库还能够通过分布式计算进行扩大,在 HPC 环境中生成大量数据。作者通过创立 13 个数据集来展现该库,其中蕴含新的视觉挑战问题,从 3D NeRF 模型到具备基准后果的光流预计。
9、Training Compute-Optimal Large Language Models
By Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, et al.
只管 BERT³ 优化有余,但获得了微小的胜利⁴,对于新的大型语言模型来说离它们真正的后劲还有很大差距,是否有优化规定能够概括总结并且实用于宽泛的大规模模型呢?
本论文的的方向是模型大小和预训练中看到的令牌数量:如果给定固定的计算估算,应该在大量令牌上预训练一个更大的语言模型,还是预训练一个蕴含更多令牌的更小模型?
他们发现:在缩放模型的同时也在缩放数据。现有的实践谬误地偏向于在大模型中训练大量的令牌。例如,作者展现了一个比 GPT- 3 小 10 倍的模型如何在足够大的语料库上训练时实现性能均等。
由此产生的模型系列被命名为 Chinchilla。
10、Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors
By Oran Gafni et al.
在受控图像生成畛域的又一步。
咱们曾经习惯了文本疏导的图像生成,尤其是自从 OpenAI 的 DALLE⁸ 在 2021 年初声名鹊起之后。这项工作属于基于离散标记的基于似然的图像生成的同一家族:学习图像块的离散示意(应用 VQ-VAE⁹ 或相似办法),而后应用文本图像对的下一个标记的自回归预测进行训练和推理,例如语言建模。该零碎有 3 个要害的新组件使其不同凡响:
- 可能增加场景(图像宰割)。
- 应用改良的 VQ-GAN⁹ 模型来学习蕴含感知损失的高保真离散示意。
- 增加无分类器打消了对生成后过滤的须要。
援用
[1]“Pay Attention to MLPs”by Hanxiao Liu et al. 2021.
[3]“BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”by Jacob Devlin et al. 2018.
[4]“RoBERTa: A Robustly Optimized BERT Pretraining Approach”by Yinhan Liu et al. 2019
[5]“Chain of Thought Prompting Elicits Reasoning in Large Language Models”by Jason Wei et al. 2022
[6]“PaLM: Scaling Language Modeling with Pathways”by Aakanksha Chowdhery et al. 2022.
[7]“Black-Box Tuning for Language-Model-as-a-Service”by Tianxiang Sun et al. 2022
[8]“Zero-Shot Text-to-Image Generation”by Aditya Ramesh et al.
[9]“Taming Transformers for High-Resolution Image Synthesis”by Patrick Esser, Robin Rombach, and Björn Ommer; 2020.
[10]“Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents”by Wenlong Huang, Pieter Abbeel, Deepak Pathak, and Igor Mordatch; 2022.
https://www.overfit.cn/post/574315c935e641e58d8d3f379f083094
作者:Sergi Castella i Sapé