作者:符尧,yao.fu@ed.ac.uk,爱丁堡大学 (University of Edinburgh) 博士生,本科毕业于北京大学;与 Tushar Khot,彭昊在艾伦人工智能研究院 (Allen Institute for AI) 共同完成英文原稿;与李如寐(美团 NLP 核心)独特翻译为中文;感激 Aristo teammates, Jingfeng Yang, 和 Yi Tay 的探讨与倡议。请同时参考 CoT[1]团队的博客。
在此前《ChatGPT 进化的机密》一文中,本文作者分析了 ChatGPT 的技术路线图。而在 ChatGPT 公布前,作者具体介绍了大模型的突现能力、以及它在 NLP/ML 工作中的潜在劣势,以此来探讨大模型所带来的“潜在的”范式转变。显然,起初 ChatGPT 所展现出的弱小能力,将这种转变的步调扎实地推动了一大步。
援用
英文版原文:https://franxyao.github.io/bl…
最近,人们对大型语言模型所展现的弱小能力(例如思维链 [2]、便签本[3])产生了极大的趣味,并发展了许多工作。咱们将之统称为 大模型的突现能力[4],这些能力可能只存在于大型模型中,而不存在于较小的模型中,因而称为“突现”。其中许多能力都十分令人印象粗浅,比方简单推理、常识推理和散布外鲁棒性。
值得注意的是,这些能力很靠近 NLP 社区几十年来始终寻求的能力,因而代表了一种潜在的钻研范式转变,即从微调小模型到应用大模型进行上下文学习。对于先行者来说,范式转变可能是很显然的。然而,出于迷信的严谨性,咱们的确须要十分明确的理由来阐明为什么人们应该转向大型语言模型,即便这些模型低廉、难以使用,并且成果可能个别。
在本文中,咱们将认真钻研这些能力是什么,大型语言模型能够提供什么,以及它们在更宽泛的 NLP/ML 工作中的潜在劣势是什么。
前提:咱们假如读者具备以下常识:
预训练、精调、提醒(一般从业者应具备的自然语言解决 / 深度学习能力)
思维链提醒、便签本(一般从业者可能不太理解,但不影响浏览)
1
存在于大模型而非小模型的突现能力
图片来自于 Wei. et. al. 2022. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models。X 轴为模型尺寸。GSM8K 是一个小学程度的数学问题集。
在以上的效果图中,咱们能够察看到模型的体现:
当尺寸绝对小的时候晋升并不大
当模型变大时有很显著的晋升
这从根本上阐明,某些能力可能不存在于小模型中,而是在大模型中取得的。
有很多种突现能力,比方 Wei 等人在 2022 年 [5] 所梳理的。有些能力很有意思,但咱们在本文不会探讨,比方 last latter concatenation,咱们认为这是 Python 而不是语言模型要做的工作;或者 3 位数加法,咱们认为这是计算器而不是语言模型要做的事。
在本文中,咱们次要对以下能力感兴趣:
- NLP 社区近几年都关注但还没实现的能力
- 之前的 NLP 模型很难达到的能力
- 源自于人类语言最深层的实质的能力
- 可能达到人类智力的最高程度的能力
2
突现能力的三个典型例子
很多有意思的能力都能够归到上文提到的类别里,在它们之中,咱们次要探讨以下三种典型能力:
简单推理
常识推理
散布外鲁棒性
接下来让咱们一个个具体探讨。
简单推理
上面是一个 GSM8K 数据集中,用提醒词显著超过精调的例子:
尽管这道题对于 10 岁的孩子来说很容易,但对语言模型来说却很难,次要是因为数学和语言混合在一起。
GSM8K 最后由 OpenAI 于 2021 年 10 月 [6] 提出。过后他们用第一版 GPT3 在全副训练集上进行了精调,准确率约为 35%。这个后果让作者相当乐观,因为他们的结果显示了语言模型的缩放法则:随着模型大小呈指数增长 ,性能呈 线性 增长(我之后会探讨)。因而,他们在第 4.1 节中思考:
”175B 模型仿佛须要至多 额定两个数量级 的训练数据能力达到 80% 的求解率。“
三个月后,即 2022 年 1 月,Wei 等人 [7] 基于 540B PaLM 模型,仅应用了 8 个思维链提醒示例便将准确率进步到 56.6%(无需将训练集减少两个数量级)。之后在 2022 年 3 月 ,Wang 等人[8] 基于雷同的 540B PaLM 模型,通过少数投票的办法将准确率进步到 74.4%。以后的 SOTA 来自我本人在 AI2 的工作(Fu et. al. Nov 2022[9]),咱们通过应用简单的思维链在 175B Codex 上实现了 82.9% 的准确率。从以上停顿能够看到,技术提高的确呈指数级增长。
思维链提醒是一个展现模型随着规模突现出能力的典型例子:
- 从突现能力来看:只管不须要 17500B,但模型大小的确要大于 100B,能力使思维链的成果大于的仅有答复提醒。所以这种能力只存在于大型模型中。
- 从成果来看:思维链提醒的性能显著优于其之前的精调办法(目前还没有能偏心比照提醒词和微调的工作。但当思维链被提出的时候,只管他们对于提醒和精调的比拟可能是不偏心的,但的确比精调成果要好)。
- 从标注效率上来看:思维链提醒只须要 8 个示例的正文,而微调须要残缺的训练集。
有些同学可能会认为模型能做小学数学代表不了什么(从某种意义上说,他们的确没有那么酷)。但 GSM8K 只是一个开始,最近的工作曾经把前沿问题推向了高中[10]、大学[11],甚至是国内数学奥林匹克问题[12]。当初更酷了吗?
常识推理
下一个例子是须要常识的推理能力(例如问答和常识推理)。在这种状况下,对大型模型进行提醒不肯定优于精调小型模型(哪个模型更好还有待察看)。然而这个状况下的正文效率被放大了,因为:
- 在许多数据集中,为了取得所需的背景 / 常识常识,(以前很小的)模型须要一个内部语料库 / 常识图谱来检索 [13],或者须要通过多任务学习在加强[14] 的数据上进行训练
- 对于大型语言模型,能够间接去掉检索器[15],仅依赖模型的外部常识[16],且无需精调
图片来自于 Yu et. al. 2022. 以前的 SOTA 模型须要从内部常识源中检索。GPT-3 的性能与以前的模型相当 / 优于以前的模型,且无需检索。
如表中所示,与数学题的例子不同,GPT-3 并没有显著优于之前的精调模型。但它不须要从内部文档中检索,自身就蕴含了常识(尽管这些常识可能过期或者不可信,但抉择哪种可信常识源超出了本文的探讨范畴)。
为了了解这些后果的重要性,咱们能够回顾一下历史:NLP 社区从一开始就面临着如何无效编码常识的挑战。人们始终在一直探索把常识保留在模型内部或者外部的办法。
上世纪九十年代以来,人们始终试图将语言和世界的规定记录到一个微小的图书馆中,将常识存储在模型之外。但这是十分困难的,毕竟咱们无奈穷举所有规定。
因而,钻研人员开始构建特定畛域的知识库,来存储非结构化文本、半结构化(如维基百科)或齐全结构化(如常识图谱)等模式的常识。通常,结构化常识很难构建(因为要设计常识的构造体系),但易于推理(因为有体系结构),非结构化常识易于构建(间接存起来就行),但很难用于推理(没有体系结构)。然而,语言模型提供了一种新的办法,能够轻松地从非结构化文本中提取常识,并在不须要预约义模式的状况下无效地依据常识进行推理。下表为优缺点比照:
散布外鲁棒性
咱们探讨的第三种能力是散布外的鲁棒性。在 2018 年至 2022 年期间,NLP、CV 和通用机器学习畛域有大量对于散布偏移 / 反抗鲁棒性 / 组合生成的钻研,人们发现当测试集散布与训练散布不同时,模型的行为性能可能会显著降落。然而,在大型语言模型的上下文学习中仿佛并非如此。Si 等人在 2022 年的钻研显示[17]:
数据来自于 Si et. al. 2022. 尽管 GPT-3 在同散布设置下比 RoBERTa 要差,但在非同散布设置下优于 RoBERTa,性能降落显著更小。
同样,在此试验中,同散布状况下基于提醒词的 GPT-3 的成果并没有精调后的 RoBERTa 要好。但它在三个其余散布(畛域切换、噪声和对抗性扰动)中优于 RoBERTa,这意味着 GPT3 更加鲁棒。
此外,即便存在散布偏移,好的提醒词所带来的泛化性能依旧会持续放弃。比方:
图片来自于 Fu et. al. 2022. 即便测试散布与训练散布不同,简单提醒也始终比简略提醒的体现更好。
Fu 等人 2022 年 [18] 的钻研显示,输出提醒越简单,模型的性能就越好。这种趋势在散布转移的状况下也会持续放弃:无论测试散布与原散布不同、来自于噪声散布,或者是从另一个散布转移而来的,简单提醒始终优于简略提醒。
到目前为止的总结
在上文中,我探讨了只有大型模型才有的三种突现能力。它们是:
- 简单推理,大型模型在没有应用全副训练数据的状况下便显著优于以前的小型模型。
- 常识推理,大型模型可能没有小模型成果好,但大模型不须要额定的常识起源(常识可能很低廉,或者很难从非结构化数据中抽取)。
- 散布外鲁棒性,这是之前进行模型精调时须要致力解决的问题。大型模型尽管在同散布状况下的成果不如以前的办法,但非同散布状况下的泛化性能却好得多。
3
突现能力颠覆比例定律
鉴于上文列出的长处,大家可能会开始感觉大型语言模型的确很好了。在进一步探讨之前,让咱们再回顾一下之前的工作,就会发现一个很奇怪的问题:GPT-3 在 2020 年就公布了,但为什么直到现在咱们才发现并开始思考范式的转变?
这个问题的答案就藏在两种曲线中:对数线性曲线和相变曲线。如下图:
左图: 比例定律. 当模型大小呈指数增长时,相应的模型性能呈线性增长。右图: 当模型尺寸达到肯定规模时,会呈现突现能力,让性能急剧减少。
最后,(OpenAI)的研究者认为语言模型的性能与模型尺寸的关系能够通过对数线性曲线预测,即模型尺寸呈指数增长时,性能会随之线性减少。这种景象被称为语言模型的缩放定律,正如 Kaplan 等人在 2020 年 [19] 最后的 GPT3 文章 [20] 中探讨的那样。
重要的是,在那个阶段,即使最大的 GPT-3 在有提醒的状况下也不能胜过小模型精调。所以过后并没有必要去应用低廉的大模型(即便提醒词的标注效率很高)。
直到 2021 年,Cobbe 等人 [21] 发现缩放定律同样实用于精调。这是一个有点乐观的发现,因为它意味着咱们可能被锁定在模型规模上——尽管模型架构优化可能会在肯定水平上进步模型性能,但成果仍会被锁定在一个区间内(对应模型规模),很难有更显著的冲破。
在缩放定律的掌控下(2020 年到 2021),因为 GPT- 3 无奈胜过精调 T5-11B,同时 T5-11B 微调曾经很麻烦了,所以 NLP 社区的关注点更多的是钻研更小的模型或者高效参数适应。Prefix tuning[22]就是提醒和适应穿插的一个例子,起初由 He 等人在 2021[23]对立。
过后的逻辑很简略:如果精调成果更好,咱们就应该在高效参数适应上多下功夫;如果提醒词的办法更好,咱们应该在训练大型语言模型上投入更多精力。
之后在 2022 年 1 月,思维链的工作被放进去了。正如作者所展现的那样,思维链提醒在性能 - 比例曲线中体现出显著的相变。当模型尺寸足够大时,性能会显著进步并显著超过比例曲线。
当应用思维链进行提醒时,大模型在简单推理上的体现显著优于微调,在常识推理上的体现也很有竞争力,并且散布鲁棒性也存在肯定的后劲。要达到这样的成果只须要 8 个左右的示例,这就是为什么范式可能会转变的起因。
4
范式转变意味着什么?
范式转变到底意味着什么?上面咱们给出精和谐提醒词办法的比照:
提醒词的益处很显著:咱们不再须要繁琐的数据标注和在全量数据上进行精调,只须要编写提醒词并取得满足要求的后果,这比精调要快很多。
另外要留神的两点是:
上下文学习是监督学习吗?
- 坦白讲,我不确定。
- 相似之处在于,上下文学习也须要像训练数据一样的示例
- 不同之处在于,上下文学习的泛化行为并不同于监督学习,这使得之前的泛化实践(例如 Rademancher Complexity 或 Neural Tangent Kernel)均不实用。
上下文学习真的比监督学习效果要好吗?
- 答案还未知。
- 大多数提醒词和精调的比照都只比了 提醒词 + 大模型 vs 精调 + 小模型,但偏心的比照应该是 提醒词 + 大模型 vs 精调 + 大模型,且比照时的基座模型应该一样。所以在最后的思维链文章中,如果 Wei 等人要阐明提醒词好于精调,他们应该比照精调后的 PaLM,而不是 GPT3。
-
我的假如是:精调能够进步散布内的性能,但会侵害散布外的鲁棒性。提醒词在散布变动的场景中体现更好,但在同散布场景下不如精调。
a. 如果假如是真的,那么一个值得钻研的问题就是如何在不就义其上下文学习能力的状况下进行精调。
b. 留神散布外精调的成果同样会随着模型尺寸变动。比方 Yang 等人在 2022 年的工作中,第四张表就显示,Bart-based 的散布外泛化能力会降落,但 Bart-large 则晋升。对于大模型,当测试集的散布和训练集相差不大时,同散布的精调成果也应该会晋升。
再回顾一下前文提到的逻辑:如果精调更好,咱们应该致力钻研如何进行参数高效的优化;如果提醒词更好,咱们应该致力去训练更好的大型语言模型。
所以,只管咱们置信大型语言模型有微小的后劲,依然没有确凿的证据表明精和谐提醒词哪种办法更好,因而咱们不确定范式是否真的应该转变、或应该转变到什么水平。认真比拟这两种范式,使咱们对将来有一个清晰的意识,是十分有意义的。咱们将更多探讨留到下一篇文章。
5
模型应该多大才够?
两个数字:62B 和 175B。
- 模型至多须要 62B,使思维链的成果能力大于规范的提醒词办法。
- 模型至多须要 175B(GPT3 的尺寸),思维链的成果能力大于精调小模型(T5 11B)的成果。
62B 这个数字来自于 Chung 等人 2022 年工作的第五张表[24]:
对于所有小于 62B 的模型,间接用提醒词都好于思维链。第一个用思维链更好的模型是 Flan-cont-PaLM 62B 在 BBH 上的后果。540B 的模型应用思维链会在更多任务上失去好的成果,但也不是全副工作都好于精调。
另外,现实的尺寸能够小于 540B,在 Suzgun 等人 2022 年 [25] 的工作中,作者展现了 175B 的 InstructGPT 和 175B 的 Codex 应用思维链都好于间接用提醒词。综合以上后果,咱们失去了 63B 和 175B 两个数字。所以,如果想要参加这场游戏,首先要有一个大于均匀尺寸的模型。
不过,还有其余大型模型在思维链下的体现差了很多,甚至不能学到思维链,比方 OPT、BLOOM 和 GPT-3 的第一个版本。他们的尺寸都是 175B。这就引出了咱们下一个要探讨的问题。
6
规模是惟一的因素吗?
不是。
规模是一个必要但不充沛的因素。有些模型足够大(比方 OPT 和 BLOOM,都是 175B),但并不能做思维链。
有两种模型能够做思维链 (TODO: add discussions about UL2):
- GPT3 系列的模型,包含 text-davinci-002 和 code-davinci-002 (Codex)。这是仅有的两个具备弱小突现能力并可公开拜访的模型。
a. 除了以上两个模型,其余 GPT3 模型,包含原来的 GPT3,text-davinci-001,以及其余更小的 GPT- 3 模型,都不能做思维链。
b. 当说“能做思维链”时,咱们是指应用思维链办法的成果比间接用提醒词、精调 T5-11B 成果更好。
c. 另外要留神的是,code-davinci-002 在语言工作上的性能始终优于 text-davinci-002。这个察看十分乏味且回味无穷。这表明基于代码数据训练的语言模型能够胜过依据语言训练的语言模型。目前为止咱们还不晓得是为什么。
- PaLM 系列模型,包含 PaLM、U-PaLM、Flan-PaLM 和 Minerva。这些模型目前还未凋谢拜访(此处 @谷歌,快开源吧)。
为什么会有突现能力目前还不分明,但咱们找出了一下可能产生突现能力的因素:
- 指令精调:GPT-3 text-davinci-002 就是用指令 + 强化学习精调 [26] 的产物。在这之前,text-davinci-001 做思维链的成果并不好。同时 PaLM[27]在通过指令精调 [28] 后的成果也有晋升。
- 在代码上精调:Codex code-davinci-002 是在代码上进行精调的,它的成果继续好于 text-davinci-002。PaLM 也在代码上进行了调整。从外表上看,代码与语言关系不大,但仿佛起了很大作用,咱们会在之后的文章进行探讨。
- 用思维链精调:在 text-davinci-002 公布时,谷歌曾经公布 PaLM 3 个月了。所以 OpenAI 应该看到了思维链相干的工作。还有一些工作表明 29,间接用思维链数据进行精调能够激发模型的思维链能力。
然而,所有这些因素在现阶段都是揣测。揭示如何训练能力让模型产生突现能力是十分有意义的,咱们将更多探讨留到下一篇文章。
7
总结
在本文中,咱们认真钻研了语言模型的突现能力。咱们强调了简单推理、常识推理和散布外鲁棒性的重要性和其中存在的机会。突现能力是十分令人兴奋的,因为它们能够超过比例定律,并在比例曲线中体现出相变。
咱们具体探讨了钻研范式是否会真的从精调转向上下文学习,但咱们目前还没有确切答案,因为精和谐上下文学习在散布内、散布外场景下的成果仍有待比照。最初,咱们探讨了产生突现能力的三个潜在因素:指令精调、代码精和谐思维链精调。十分欢送大家提出倡议和探讨。
另外咱们还提到了两个尚未探讨的乏味问题:
- 咱们是否能偏心比照精和谐上下文学习的成果?
- 咱们是如何训练大模型,能力让模型具备突现能力、思维链能力?
对于这两个问题,咱们会在之后的文章中进行探讨。
中英对照表
参考资料
[1]https://www.yitay.net/blog/em… https://www.jasonwei.net/blog/emergence
[2]Wei et. al. 2022. Chain of Thought Prompting Elicits Reasoning in Large Language Models: https://arxiv.org/abs/2201.11903
[3]便签本: https://lingo.csail.mit.edu/b…
[4]Wei et. al. 2022. Emergent Abilities of Large Language Models: https://arxiv.org/abs/2206.07682
[5]Wei et. al. 2022. Emergent Abilities of Large Language Models: https://arxiv.org/abs/2206.07682
[6]Cobbe et. al. 2021. Training Verifiers to Solve Math Word Problems: https://arxiv.org/abs/2110.14168
[7]Wei et. al. 2022. Chain of Thought Prompting Elicits Reasoning in Large Language Models: https://arxiv.org/abs/2201.11903
[8]Wang et. al. 2022. Self-Consistency Improves Chain of Thought Reasoning in Language Models: https://arxiv.org/abs/2203.11171
[9]Fu et. al. 2022. Complexity-Based Prompting for Multi-step Reasoning: https://arxiv.org/abs/2210.00720
[10]Chung et. al. 2022. Scaling Instruction-Finetuned Language Models: https://arxiv.org/abs/2210.11416
[11]Lewkowycz et. al. 2022. Minerva: Solving Quantitative Reasoning Problems with Language Models: https://arxiv.org/abs/2206.14858
[12]Jiang et. al. 2022. Draft, Sketch, and Prove: Guiding Formal Theorem Provers with Informal Proofs: https://arxiv.org/abs/2210.12283
[13]Xu et. al. 2021. Fusing Context Into Knowledge Graph for Commonsense Question Answering: https://aclanthology.org/2021…
[14]Khashabi et. al. 2020. UnifiedQA: Crossing Format Boundaries With a Single QA System: https://aclanthology.org/2020…
[15]Yu et. al. 2022. Generate rather than Retrieve: Large Language Models are Strong Context Generators: http://arxiv.org/abs/2209.10063
[16]Jung et. al. 2022. Maieutic Prompting: Logically Consistent Reasoning with Recursive Explanations: https://arxiv.org/abs/2205.11822
[17]Si et. al. 2022. Prompting GPT-3 to be Reliable. : https://arxiv.org/abs/2210.09150
[18]Fu et. al. 2022. Complexity-based Prompting for Multi-Step Reasoning: https://arxiv.org/abs/2210.00720
[19]Kaplan et. al. 2020. Scaling Laws for Neural Language Models: https://arxiv.org/abs/2001.08361
[20]Brown et. al. 2020. Language Models are Few-Shot Learners.: https://arxiv.org/abs/2005.14165
[21]Cobbe et. al. 2021. Training Verifiers to Solve Math Word Problems: https://arxiv.org/abs/2110.14168
[22]Li and Liang. 2021. Prefix-Tuning: Optimizing Continuous Prompts for Generation: https://aclanthology.org/2021…
[23]He et. al. 2021. Towards a Unified View of Parameter-Efficient Transfer Learning: https://arxiv.org/abs/2110.04366
[24]Chung et. al. 2022. Scaling Instruction-Finetuned Language Models: https://arxiv.org/abs/2210.11416
[25] Suzgun et. al. 2022. Challenging BIG-Bench tasks and whether chain-of-thought can solve them: https://arxiv.org/abs/2210.09261
[26]Ouyang et. al. 2022. Training language models to follow instructions with human feedback: https://arxiv.org/abs/2203.02155
[27]Chowdhery et. al. 2022. PaLM: Scaling Language Modeling with Pathways: https://arxiv.org/abs/2204.02311
[28]Chung. et. al. 2022. Scaling Instruction-Finetuned Language Models: https://arxiv.org/abs/2210.11416
[29]Huang et. al. 2022. Large Language Models Can Self-Improve: https://arxiv.org/abs/2210.11610
[30]Chung. et. al. 2022. Scaling Instruction-Finetuned Language Models: https://arxiv.org/abs/2210.11416
欢送 Star、试用 OneFlow 最新版本:https://github.com/Oneflow-In…