共计 6819 个字符,预计需要花费 18 分钟才能阅读完成。
本月的论文包含语言模型、扩散模型、音乐生成、多模态等主题。
1、MusicLM: Generating Music From TextPage
https://arxiv.org/abs/2301.11325
By Andrea Agostinelli, Timeo I. Denk, et al.
扩散模型和自回归离散模型都在生成音乐 / 音频显示出令人印象粗浅的性能。
与最近应用间断扩散模型的其余生成音频工作不同,MusicLM 是一种齐全自回归和齐全离散的音乐生成模型。它奇妙地利用现有工作(SoundStream [1] 和 w2v-BERT [2])在不同的时间尺度疏导示意学习,并在长达几分钟的长时间跨度内实现以前看不见的连贯性的音乐生成。作者将这种技术称为档次示意,因为自回归建模产生在不同的粒度级别,这是实现长期一致性的要害。
这个我的项目的要害组成部分之一是数据:对于 MuLan [3],他们采纳解冻模型的形式,对于 SoundStream 和 w2v-BERT,他们应用免费音乐存档。为了训练分词器和自回归模型,他们应用本人的专有数据集,其中蕴含 5M 音频剪辑,总计 280,000 小时 24kHz 的音乐。这意味着在低级和高级示意之间,模型承受了大概 10 亿(高级)和 500 亿(低级)标记的训练。就训练数据而言,MusicLM 可与 GPT-2 相媲美,后者在大概 300 亿个令牌上进行了训练。
在他们的我的项目页面,有一些音乐样本。如果对音频生成主题感兴趣,请查看 archinet 在过来一个月中一直减少的音频 AI 作品列表(下表)。
https://github.com/archinetai…
2、A Watermark for Large Language Models
https://arxiv.org/abs/2301.10226
John Kirchenbauer, Jonas Geiping, Yuxin Wen, Jonathan Katz, Ian Miers, Tom Goldstein.
随着 chatGPT 在支流中越来越受欢迎,对舞弊的担心也越来越多。应该在哪里应用这些模型?能够检测模型的输入吗?
这项工作提出了一种为专有语言模型(例如来自 OpenAI 的语言模型)的输入增加水印的办法。此水印的领导准则之一是它永远不会导致误报(即对某人的“诬告”)。该办法的工作原理如下:
- 给定一个标记,确定性伪随机算法将语言模型词汇表分成白 / 黑名单标记。
- 该模型在每个推理步骤仅从列入白名单的词汇表生成输入。
- 为了防止生成降级,这个过程只利用于高熵令牌。该办法有点简单,作者从信息论的角度提供了实践保障
当初,正如作者所展现的那样,这种技术对于一些攻打是持重的,比方只是在这里和那里替换一些单词,但它不是无懈可击的,并且能够通过一些形式来躲避(例如,让第三方语言模型改写第一个语言模型的输入)。不过,有传言称,OpenAI 打算公布一款带有相似水印技术的产品,心愿缩小欺诈性应用该技术。
3、Demonstrate-Search-Predict: Composing retrieval and language models for knowledge-intensive NLP
https://arxiv.org/pdf/2212.14…
Omar Khattab, Keshav Santhanam, Xiang Lisa Li, David Hall, Percy Liang, Christopher Potts, Matei Zaharia.
检索加强 LM:用内部显式记忆加强 LM 有可能彻底改变咱们查找信息的形式。这项工作代表了超过通过检索加强 LM 的一步。
大多数检索加强的 LM 以先检索后读取的形式工作: 给定提醒,对检索模型 (RM) 进行查问,而后将其用作生成 LM 的上下文。但有时简单的信息需要须要 LM 和 RM 之间更简单的交互,这就是本文提出的建模办法。
Demonstrate-Search-Predict (DSP)是一个用于上下文学习的框架,其中 LM 和解冻 RM 交互,替换自然语言和分数。这表明在常识密集型多跳问答场景下 (即当不能立刻找到答案时),性能失去了进步。作者提供了一个 python 实现,通过 3 个步骤定义 LM 和 RM 交互: 演示(从训练样本中主动开掘大量示例)、搜寻(RM 和 LM 交互) 和预测(生成最终答案)。
4、The Flan Collection: Designing Data and Methods for Effective Instruction Tuning
https://arxiv.org/abs/2301.13688
Shayne Longpre, Le Hou, Tu Vu, Albert Webson, Hyung Won Chung, Yi Tay, Denny Zhou, Quoc V. Le, Barret Zoph, Jason Wei, Adam Roberts.
你能够本人部署和运行的最好的全面公开、齐全开源的语言模型是什么?FLAN-T5。
最后在 FLAN [5] 中提出,指令调整(不要与 InstructGPT 混同)是在 LM 的训练中以自然语言指令的模式蕴含标记数据的过程。
这项钻研比拟了现有的开源预训练指令调优模型在各种设置下的状况: 放弃或放弃工作 (模型在训练期间看到工作了吗?) 和零或少样本学习。比拟的所有模型都属于 T5 家族,除了 OPT-IML-Max[8]有 1750 亿个参数外,其余型号都有 30 亿个参数。
最重要的是:(1)在训练过程中混合零样本和少样本的例子,有助于在所有设置下的性能,(2)指令调优再次证实,使更小的小模型可能达到更大一个数量级的模型的性能。
这些后果证实了一个现有的风行观点,即 Flan T5 是目前最实用于零样本和少样本学习的中等规模 (3-10B) 模型。
5、Tracr: Compiled Transformers as a Laboratory for Interpretability
https://arxiv.org/abs/2301.05062
David Lindner, János Kramár, Matthew Rahtz, Thomas McGrath, Vladimir Mikulik.
把 Transformers 看作计算机能够让咱们对这些模型的计算能力有新的意识。
Restricted Access Sequence Processing Language (RASP[6])是一种特定于畛域的语言,用于表白 Transformer 能够执行的计算。将 Transformer 视为一个计算平台,其输出是一系列分类变量,操作符能够是:(1)进行抉择,(2)进行元素计算,或 (3) 进行抉择 - 聚合计算。
Tracr 是一种将 RASP 间接编译为 Transformer 权重值的办法。例如,上面是一个对序列进行排序的程序。
尽管目前这个论文提出的办法在理论利用中十分无限,但它能够作为一个工具,更好地了解 Transformers 执行的那种计算。它能够作为在神经网络中实现符号操作的桥梁,或者在检测到实现某些算法的某些权重模式时,用更无效的算法替换神经网络组件。
本文还比拟了编译权重与梯度降落学习权重的比拟,从教训上证实了这两种办法如何收敛到雷同的后果。
6、Extracting Training Data from Diffusion Models
https://arxiv.org/abs/2301.13188
Nicholas Carlini, Jamie Hayes, Milad Nasr, Matthew Jagielski, Vikash Sehwag, Florian Tramèr, Borja Balle, Daphne Ippolito, Eric Wallace.
在生成式人工智能的迅速崛起中,训练数据的所有权、归因和隐衷曾经成为一个强烈答辩的畛域。这项工作突出了扩散模型在重现训练图像时的毛病和危险,这是令人担忧的,因为训练数据通常没有齐全过滤,最终包含私人信息。
他们在论文中所做的工作的要点非常简单,即生成具备稳固扩散的图像,并带有与训练集中发现的提醒相匹配的提醒,并查看模型生成与训练图像完全相同的图像的频率。
次要要点是:
- 模型越弱小,检索到训练图像的可能性就越大。
- 基于 GAN 的图像生成模型也能够从训练数据集中生成图像,但不太容易受到间接记忆的影响。乏味的是,GANs 和 dm 有很强的记忆雷同图像的偏向,这表明这些图像 / 提醒对之间存在一些共性,使它们“令人难忘”
这项工作并没有考察自回归图像生成模型,但思考到它们也被训练成准确复制训练数据,看看它们与扩散模型相比如何必定会很乏味。
7、Multimodal Chain-of-Thought Reasoning in Language Models
https://arxiv.org/abs/2302.00923
Zhuosheng Zhang, Aston Zhang, Mu Li, Hai Zhao, George Karypis, Alex Smola.
Chain-of-thought[9] 在一年前证实能够从现有的语言模型中提取大量推理。当初该技术利用于多模式设置(视觉 + 语言)。
这项工作考察了问答模型,包含图像生成模型。之前的钻研发现,Chain-of-Thought 小模型的推理性能,而联结视觉 + 语言模型会在推理中产生大量幻觉。作者倡议通过将基本原理生成和答复分两个阶段解耦来解决这个问题。这能够进步性能,例如超过了 ScienceQA 基准测试中的先前技术水平(这是一种文本到文本的纯语言模型,通过 OpenAI 的 API 的 GPT-3.5)。
8、StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis
https://arxiv.org/abs/2301.09515
Axel Sauer, Tero Karras, Samuli Laine, Andreas Geiger, Timo Aila.
GANs 在扩散模型的强势下仍然能够一战
只管扩散模型因为其令人印象粗浅的多功能性和鲁棒性曾经成为图像生成的焦点,GANs 依然具备一些劣势。最突出的是,它们的效率要高得多: 一次向前传递就足以生成一幅图像,而扩散模型则须要多个步骤来实现。
这项工作提出了最新的 GAN 迭代:StyleGAN-T,以解决大规模文本到图像合成的需要。包含:强文本对齐,可控输入变动,在不同数据上的训练稳定性等。总的来说,这是一项十分扎实的工程工作,将古代神经网络和优化实际利用于基于 gan 的图像生成。
StyleGan- T 与现有的驰名扩散模型 (如 DALL·e2) 有一些相似之处,例如应用 CLIP 嵌入的条件生成疏导。作者强调,这种 GAN 模型能够与文本提醒更好地对齐 - 变动(即,心愿生成的图像提醒,但在屡次生成时也具备正当的可变性)。
思考到效率等限度因素,gan 依然具备竞争力,但咱们不冀望它们很快就会使扩散模型过期,因为这些模型在不断改进并找到新的用处。
9、Text-To-4D Dynamic Scene Generation (MAV3D)
https://make-a-video3d.github…
Uriel Singer, Shelly Sheynin, Adam Polyak, Oron Ashual, Iurii Makarov, Filippos Kokkinos, Naman Goyal, Andrea Vedaldi, Devi Parikh, Justin Johnson, Yaniv Taigman.
为生成图像减少了一个维度: 生成 3D 视频。
这项工作最令人印象粗浅的壮举之一是,与图像不同 3D 视频和文本数据对并不多。作者依附现有的预训练文本到视频模型 (Make-A-Video[7],也来自 Meta) 作为 NeRF 模型的“场景先验”,该模型通过优化以创立场景的 3D 示意。也就是说在优化过程中,NeRF 模型从间断的时空坐标创立场景的一系列视图,而后应用扩散模型对图像的真实感和与文本提醒的对齐进行评分,这种技术称为评分蒸馏采样。
能够被视为 DreamFusion[8]的扩大,这是一个文本到 3d 图像模型,其中增加了工夫维度。这种模型生成的视频很短,不蕴含任何故事情节,因为这依然是长视频生成的一个挑战。
10、PADL: Language-Directed Physics-Based Character Control
https://arxiv.org/abs/2301.13868
Jordan Juravsky, Yunrong Guo, Sanja Fidler, Xue Bin Peng.
超过文本的 LM 应用程序。
这项工作应用 LM 将自然语言指令映射到角色管制。想一想应用任意简单的高级语言指令在视频游戏中挪动角色。这在可拜访性(例如,通过缩小显式输出更快地设计动画)、新的视频游戏体验,甚至是具备越来越简单的指令的新鲜的个别人机交互方面具备很大的后劲。
该办法波及学习将语言指令与角色动作对齐的技能嵌入,训练策略,最初学习聚合策略以联合技能和工作(例如,波及对象和简单的交互)。
最初本文的一些其余援用
[1]“SoundStream: An End-to-End Neural Audio Codec”by Neil Zeghidour, Alejandro Luebs, Ahmed Omran, Jan Skoglund, Marco Tagliasacchi, 2021.
[2]“W2v-BERT: Combining Contrastive Learning and Masked Language Modeling for Self-Supervised Speech Pre-Training”by Yu-An Chung, Yu Zhang, Wei Han, Chung-Cheng Chiu, James Qin, Ruoming Pang, Yonghui Wu, 2021.
[3]“MuLan: A Joint Embedding of Music Audio and Natural Language”by Qingqing Huang, Aren Jansen, Joonseok Lee, Ravi Ganti, Judith Yue Li, Daniel P. W. Ellis, 2022.
[4]“DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature”by Eric Mitchell, Yoonho Lee, Alexander Khazatsky, Christopher D. Manning, Chelsea Finn, 2023.
[5]“Finetuned Language Models Are Zero-Shot Learners”by Jason Wei, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai, Quoc V. Le, 2021.
[6]“Thinking Like Transformers”by Gail Weiss, Yoav Goldberg, Eran Yahav, 2021.
[7]“Make-A-Video: Text-to-Video Generation without Text-Video Data”by Uriel Singer, Adam Polyak, Thomas Hayes, Xi Yin, Jie An, Songyang Zhang, Qiyuan Hu, Harry Yang, Oron Ashual, Oran Gafni, Devi Parikh, Sonal Gupta, Yaniv Taigman, 2022.
[8]“OPT: Open Pre-trained Transformer Language Models”by Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher Dewan, Mona Diab, Xian Li, Xi Victoria Lin, Todor Mihaylov, Myle Ott, Sam Shleifer, Kurt Shuster, Daniel Simig, Punit Singh Koura, Anjali Sridhar, Tianlu Wang, Luke Zettlemoyer, 2022.
[9]“Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”by Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, Denny Zhou, 2022.
https://avoid.overfit.cn/post/5cdbc0916d7c4428b44305a2546cc898
作者:Sergi Castella i Sapé