作者 | FesianXu
导读
继 AlphaGo 在 2016 年横扫了人类棋手之后,2022 年末的 chatGPT 横空出世,再次引爆了寰球对人工智能技术的激情。基于语言模型的 chatGPT 的性能却远远不止步于『chat(闲聊)』,而是能在人类的各个领域中提供帮忙,包含但不限于编程、常识问答、法律咨询、常识检索、数学题 / 逻辑题解答、甚至有研究者还称其可能具备九岁孩童的人类心智 [1],并有研究者称 GPT-4 [3] 曾经能够视为晚期的通用人工智能 [2]。
对于笔者来说,因为没有在 NLP 前沿畛域有太多跟踪,这所有太过忽然,好像从天而降,但心里曾经隐隐感觉大规模语言模型可能并不只受限于『语言』,而是能在非常广阔的其余畛域有所利用。本文是笔者在读完综述 [4]后的一个读后感,笔者对 NLP 见识无限,谨以此文对一些浏览进行集体认识探讨。
全文 11355 字,预计浏览工夫 29 分钟。
gmented Language Model (ALM),笔者将其翻译为增强型语言模型,因其不仅可解决惯例的自然语言解决工作(如命名实体辨认、文本分类等等),而且在一些看似不是自然语言工作的场景也能够利用(如操控机械臂等),在论文 [4] 中,作者给咱们展现了一个 ALM 在以后已有的一些钻研,笔者深受其震撼。总结来说,ALM 次要有两种最为突出的能力:
1、推理能力(Reasoning): 指的是模型能将简单工作拆解为多个或多步简略工作,通过对简略工作的求解从而达到对简单工作求解的目标。
2、对外部工具的操控能力(The ability of using external tools): 指的是有能力调用内部工具,比方搜索引擎、数据库、甚至是物理世界的机械臂等。这种能力有能够再细分为单纯从工具中获取常识(如调用搜索引擎),或者通过工具影响物理世界(如操作机械臂)。
首先须要强调的是,这些能力目前来看都只在大规模语言模型(Large Language Model, LLM)中有所涌现(Emergency)[5],涌现指的是某种只在模型参数规模达到肯定水平后(>10B)能力呈现的能力,这些能力在小模型上都无从谈起,对此的探讨可参考博文 [6]。LLM 的涌现能力能够说是 ALM 的根底,具备了涌现能力之后,ALM 才具备了弱小的逻辑推理和语义理解能力。能够想想,一个模型如果可能具备弱小的语义理解能力和逻辑推理能力,并且能够通过操作内部工具获取常识,影响物理世界,那么这曾经和咱们意识中的『强人工智能』仿佛也相差不远了?本文就是尝试对 ALM 的这些神奇的能力进行综述。
01 推理能力
通常来说,推理能力是通过证据(Evidence)和逻辑(Logic)对一个问题进行推理的能力,通常能够拆分为一些子问题进行钻研,比方常识推理(Commonsense reasoning)、数学推理(mathematical reasoning)、符号推理(Symbolic reasoning)等等。近些年来,基于 prompt 技术的语言模型失去了宽泛地风行,prompt 技术 + 预训练模型是一种新的范式,与传统 pretrain -> finetune 的范式有所不同的是,在 pretrain -> prompt 范式中,咱们能够不对模型参数进行更新,只须要思考如何设计更加正当的 prompt,就能充沛地利用预训练模型中的常识。这里指的『设计更正当的 prompt』,既能够是借助已有的人工标注数据进行设计,也能够对已有的人工标注数据进行扩大,比方 Chain of Thought Prompt [7] 就扩大了已有标注,补充了思维链的过程。
说到底,无论是 prompt 还是 finetune,都是为了让预训练模型更好地往着上游工作迁徙的过程,然而这两者有着齐全不同的设计思路。对于 finetune 而言,预训练模型好像是一个早熟的『孩子』,常识丰盛却短少了教训,因而通过一些人工标注数据作为监督信号,去教诲这个孩子成为某个畛域的专家,然而这个变质的过程是刻骨铭心的,一旦他成为了一个畛域的专家,他可能就很难成为另一个畛域的专家了。变质后的他取得了某个畛域的胜利,却失去了作为孩子的有限倒退的可能性(模型通用性)。不仅如此,当初的预训练模型日渐宏大,GPT- 3 的参数量曾经达到了 175B,PaLM 的参数量达到了 540B,在这种参数量下,即使是大量样本的微调,也显得代价难以承受。
此时,咱们天然就在想,是否能够在不更新模型参数的前提下,进行预训练模型的上游工作迁徙呢?而这也不是痴人说梦,预训练模型在参数量足够微小的时候,自身就蕴含着有限可能性,他好似一个无穷尽的知识库,只是短少了无效的搜寻路径。从这个角度看,『finetune』这个过程才显得可笑,这相当于为了符合某个人的爱好,就将这个已有常识宝库外面的大部分常识都付之一炬个别。理查德·道金斯所著的《自私的基因》一书中已经有句名言:
当搜寻空间足够大时, 无效的搜寻就与真正的发明并无二致了。
咱们在领有了这个无尽常识宝库(大规模语言模型)后,应该思考的是如何能力无效从中找到咱们须要的内容,而这个过程咱们无妨就称之为 prompt。_(1. 然而,这并不是阐明 finetune 就不重要了,事实上基于 instruction 的 finetune 正是能让 chatGPT 如此胜利的要点之一。)_
LLM 的推理能力正是能够通过 prompt 技术进行诱导,而 prompt 又能够分为 zero-shot prompt 和 few-shot prompt,后者咱们通常也称之为情景学习(in-context learning)。_(2. 之所以笔者将 in-context 翻译成情景,而不是上下文,那是因为 in-context 这个过程更多地是为 LLM 提供一个工作的诱导,而不是提供一个上下文。翻译成上下文多少和原意有所不同,因其可视为提供了某种工作的背景,翻译成情景就更为适合。)_
如 Fig 1.1 (a) 所示,few-shot prompt 技术能够通过提供一个解决某个问题的两头思维过程作为示例,如绿底字就提供了解决这个文字数学问题的两头计算过程,诱导 LLM 的答复外面也蕴含这个两头思维过程,因而这种 prompt 形式也称之为思维链提醒 (Chain of Thought Prompt, CoT prompt)。如果只提供了一个示例,称之为 one-shot prompt,如果提供了若干个示例,则称之为 few-shot prompt,如果没有提供任何示例呢?如 Fig 1.1 (b) 所示,这种咱们称之为 zero-shot prompt。在 zero-shot prompt 中,没有提供任何和工作无关的示例,顶多会提供一些通用的提醒词,如 [8] 只是在输出的问题前面增加上了一段 Let’s think step by step,即便如此,试验也证实了在 GSM8K 等推理工作中,zero-shot prompt 也有着不错的体现(即使比不过 few-shot prompt)。
△Fig 1.1 通过应用 Few-shot 思维链提醒技术和 zero-shot 提醒技术,能够『诱导』出模型的推理能力。
如 Fig 1.2 (a)所示,采纳了 CoT prompt 技术的 LLM 模型,比起不采纳 CoT 的有着微小的性能晋升,而如 Fig 1.2 (b)所示,CoT prompt 带来的大幅性能晋升只在模型规模达到肯定水平之后才会涌现。
△Fig 1.2 采纳了 CoT prompt 技术后,与传统 prompt 技术的后果比照。
还有一些钻研在尝试将简单问题进行分解成多个子工作,进行分而治之解决,这些办法又能够分为两大类,将简单问题合成为子工作的办法,也是采纳了 prompt 技术 [9] 进行的。
1、独立对子问题进行求解,并将子解合并为最终解。
2、序列式地求解子问题,将上一个子问题的答案作为下一个子问题的依赖进行求解。
这个过程可见 Fig 1.3,在 Prompt 0 中对简单问题进行合成,失去两个子问题,显然这两个子问题存在依赖关系,咱们须要首先解决绿色子问题 Subquestion 1。在 prompt 1 中,将绿色子问题 Subquestion 1 作为 prompt,和原问题一并提供给 LLM 失去 Answer 1。而后在 Prompt 2 中将原问题,Subquestion 1 和 Answer 1 作为 prompt 的一部分输出,同时再退出 Subquestion 2,失去最终的问题答案 Answer 2。
△Fig 1.3 LLM 对简单工作进行子工作合成,而后序列式地对子问题进行求解,失去最终的问题答案。
即使曾经获得了如此了不起的后果,prompt 技术还处在一些缺点,特地是当 LLM 足够大的时候。首先,摸索出一些可能诱导出 LLM 造成推理能力(如多步推理)的 prompt,筛选一个适合的 prompt 并不是一件容易的事件。如 Fig 1.4 (a)所示,即使是雷同的 prompt 示例样本,不同标注者的 prompt 格调都能够导致在 GSM8K 上的后果有较大差距。不仅如此,当 LLM 规模较大的时候,长 prompt 同样会带来较大的计算累赘。
△Fig 1.4 即使对于同一个示例样本,不同的 prompt 格调都会对后果有很大影响。
因而,一些钻研尝试显式地诱导语言模型进行推理 (3. 之所以称之为『显式』,指的是咱们须要提供多步推理的过程,作为某种模式的监督信号给模型,无论模型须要微调与否,当失去了这种多步推理的两头信号后,就能够视为是显式地对多步推理能力进行建模。),这个过程就回到了 pretrain -> finetune 的范式,不过还是同样会应用 prompt 技术的辅助。文献 [10] 提出了一种称之为『草稿本(Scratchpad)』的概念,指的是模型在训练时候能够同时见到原问题和两头步骤,并且以两头步骤作为监督信号进行模型的 finetune,在预测阶段模型汇通是对两头步骤和两头答案都进行预测,像极了咱们解数学题时候的草稿本,因而而得名。如 Fig 1.5 所示,该图展现了个别间接式的程序执行预测和草稿本策略下的程序执行预测的差异,后者会对程序调用过程中的后果进行跟踪,并且以此微调模型,以此显式地取得推理能力。咱们能发现,scratchpad 策略和咱们之前提到的 few-shot prompt 等策略都有所不同,它是须要对模型进行微调的。
△Fig 1.5 scratchpad 会对代码运行或者数学计算的两头步骤和后果都进行预测。
△Fig 1.6 另一种可行的显式多步推理建模,将多步推理过程在 prompt 中作为输出。
总结来看,LLM 的推理能力能够认为是一种将简单问题合成为多个子问题,并且进行别离求解的过程,这个过程中不能保障两头步骤的有效性,同时 LLM 也常常会呈现一些常识性谬误,并且 LLM 常常在一些简略的数学问题中失去谬误的两头答案。这些咱们将在后文中看到,能够通过调用内部工具(如搜索引擎、计算器等)进行缓解,进步两头推理步骤的有效性。
在原文中,此处作者还提到了一个乏味的论断,采纳显式的指令微调(instruction finetuning),曾经在诸多钻研中证实了其作用,可能使得较小规模的(10B 左右)的语言模型,超过未通过指令微调的大规模语言模型,特地是在那些十分看重指令执行的工作中。这一点在 chatGPT 和其前辈 instructGPT [15]都有体现,他们利用了 RLHF(Reinforcement Learning from Human Feedback)技术,对 LLM 进行了指令微调,从而失去了弱小的推理能力。
02 应用内部工具的能力
最近 chatGPT 又推出了一个应用插件的性能 [12],使得 chatGPT 能够联网与超过 5000 种的内部插件进行交互,这是一个轰动的后果,这意味着 chatGPT 作为一个『大脑』,从此能够利用互联网中海量的插件能力,这无疑给 chatGPT 赋予了左膀右臂,如 Fig 2.1 的官网演示所示,一旦 chatGPT 接入了 Wolfram Alpha,就再也不必放心 chatGPT 数值计算的不精确的问题了。一旦 chatGPT 接入了搜索引擎和数据库,chatGPT 就能够检索到最新的信息了。一旦 chatGPT 接入了代码解释器,chatGPT 甚至还能帮你 debug 代码!这海量的插件将给 chatGPT 带来齐全不同的玩法,咱们不禁感叹天网将至,仿佛咱们往着通用人工智能又往前了一大步。
△Fig 2.1 chatGPT 接入了 Wolfram Alpha 插件后,领有了更为准确的数值计算性能。
从下面的例子中,咱们不难看出 LLM 除了推理能力,还能借助内部知识库的力量坚固本人的常识,不仅如此,LLM 甚至还能『听得懂』你的指令为你购物,还能管制物理世界的机械臂 [13],而本章就探讨 LLM 的这两种能力:利用工具坚固本人常识、通过工具影响内部世界。
此处的内部工具(External Tools)是一个狭义的概念,不仅仅是搜索引擎、数据库、机械臂等,连神经网络或者语言模型自身也能够视为是内部工具。从这种角度上看,LLM 迭代式地调用本身也能够视为是调用工具,相似的工作如 PEER [15]。如 Fig 2.1 所示,PEER 是一个本人调用本人的过程,其每次迭代中会输出 Text,LLM 生成 Plan 和 Edit,通过 Plan 的疏导对原文进行批改,并造成批改后的文本 Edit。在后续的迭代中,将 Edit 作为 Text,并迭代运行,直到达到终止条件为止。这种迭代式优化文本的形式对于一些简单的生成工作,如小说、文章生成而言有着劣势,相当于是将简单工作拆分为了多个小型的子工作了。
△Fig 2.1 采纳 PEER 的迭代式 prompt 的例子。
正如上文所谈到的,LLM 还能够调用内部的常识单元,比方搜索引擎、数据库等进步本身的常识推理能力,通过这种伎俩能够缩小 LLM 的事实谬误推理,产生过期信息等,并且通过将 LLM 的常识贮存性能下放到内部常识模块,能够缩小 LLM 的参数量。检索通常能够分为稠密检索(Sparse)和浓密检索(Dense),前者通过对文档和检索词进行词袋(Word of Bag, WoB)表白后进行匹配,是一种相似于字词匹配的技术;而后者通过神经网络对文档和检索词进行向量编码后进行类似度计算,也被称之为向量化检索 [16],这是一种基于语义的检索形式。在咱们本文中提到的工作都是采纳浓密检索的。语言模型尝试采纳检索系统的后果并不是一件稀奇事儿,这类型的工作会将文档的浓密表白拼接到以后语言模型上下文的前面,从而进行类似度计量,第一篇端到端的工作是 REALM [17],还有若干篇后续工作。还有一些工作尝试把思维链的思维也引入到检索中,如 IRCoT(交错型检索思维链, Interleaving Retrieval CoT)[18]这个计划通过交错检索步(Retrieve)和推理步(Reason),利用检索失去的后果去增强 CoT 推理步的后果,反过来也用 CoT 推理步的后果去更好地检索新后果,这是一个彼此增强的过程,如 Fig 2.2 所示。
△Fig 2.2 IRCoT 的流程交织着检索步(Retrieve)和推理步(Reason)。
在这些工作中,为了取得对应的材料去加强语言模型,对于每个检索申请(Query)都会调用检索器(Retriever)。与此同时,也有些其余工作让语言模型 只在须要的时候 申请检索器裁减常识。比方 BlenderBot [20] 能够通过 prompt 的办法决定是否发动检索,在这种状况下,prompt 办法间接与调用搜索引擎工具的指令相关联了。因为能够拜访到内部的搜索引擎,因而 BlenderBot 能够应答凋谢域(open-domain)的问题,如 Fig 2.3 所示,作者将其作为公开利用进行部署、公开,让模型能以人在回路(human in the loop)的形式对模型进行继续训练。
△Fig 2.3 BlenderBot 采纳人在回路的形式,对模型进行继续学习。
BlenderBot 只能对检索器 (4. 此处的搜索引擎并不是指的如同百度和谷歌一样的具备前端的搜索引擎,而是单纯的输出文本返回文本的搜寻工具,或者笔者将其称之为检索器会更加适合的。) 进行调用,而在 WebGPT 这篇工作中,作者尝试让语言模型去仿照人的行为去『浏览』一个浏览器,为了实现的简便性,此处的浏览器是一个纯文本形成的浏览器 (5. 浏览器是纯文本亦或是具备好看的前端和控件与否,并不是一个根本性的问题,具备有前端和控件的浏览器咱们也能视为是有超文本定义进去的,因而只采纳纯文本的浏览器并不会影响 WebGPT 的有效性。)。webGPT 能够学习出如何通过应用如 Fig 2.4 所示的无限指令集对浏览器进行检索、浏览、点击链接、援用数据源等,因为这显然是一个 action-reward 的过程,在训练模型的时候采纳了强化学习,而此处的处分也并不难定义,在给定了某个特定的工作形容的时候,只有判断 webGPT 是否在浏览器中找到了须要的内容,即可定义出非零既一的硬处分函数去疏导模型的学习了。
△Fig 2.4 WebGPT 所应用的无限指令集,包含了网页浏览相干的基本操作,如查问、点击链接、定位网页、援用等等。
由此咱们看到 LLM 具备合成工作和决策序列布局的能力,这种能力对于管制内部工具而言十分重要,LLM 有一个很有意思的利用就是尝试利用 LLM 作为『大脑』去合成高级指令,拆解指标后管制一个虚构仿真世界中的实体或者真实世界中的实体(agent)。如 Fig 2.5 所示,”Get Class of Milk” 是一个简单且形象的指令,为了实现这个指令须要实体晓得周围环境的状态,并且拆解、布局出适合的一系列动作去实现,而 [22] 这篇工作指出,在 LLM 足够宏大并且进行了正确的 prompt 之后,LLM 中所具备的世界常识(World Knowledge)足以让实体实现这个工作。
△Fig 2.5 LLM 能够拆解简单、形象的指令成若干具体指令,而后领导虚拟世界的实体进行执行。
在 [23] 这个工作中,作者则联合多模态模型(Visual-Language Model, VLM)和 LLM 模型去管制模仿环境下的机械臂,LLM 作为多步布局器(去了解环境情况与工作语义,进行简单工作的拆解),而 VLM 则作为察看外部环境的伎俩,通过多模态模型的引入提供了更好的察看内部世界的伎俩。
END
参考资料:
[1]. Kosinski, M. (2023). Theory of mind may have spontaneously emerged in large language models. arXiv preprint arXiv:2302.02083.
[2]. Bubeck, S., Chandrasekaran, V., Eldan, R., Gehrke, J., Horvitz, E., Kamar, E., … & Zhang, Y. (2023). Sparks of Artificial General Intelligence: Early experiments with GPT-4. arXiv preprint arXiv:2303.12712.
[3]. https://cdn.openai.com/papers/gpt-4.pdf
[4]. Mialon, Grégoire, Roberto Dessì, Maria Lomeli, Christoforos Nalmpantis, Ram Pasunuru, Roberta Raileanu, Baptiste Rozière et al.“Augmented language models: a survey.”arXiv preprint arXiv:2302.07842 (2023).
[5]. Wei, Jason, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama et al.“Emergent abilities of large language models.”arXiv preprint arXiv:2206.07682 (2022).
[6]. https://fesianxu.github.io/2023/03/25/emergent-abilities-llm-…,《【论文极速读】大规模语言模型中的能力“涌现”景象》
[7]. Wei, Jason, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Ed Chi, Quoc Le, and Denny Zhou.“Chain of thought prompting elicits reasoning in large language models.”arXiv preprint arXiv:2201.11903 (2022).
[8]. Takeshi Kojima, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, and Yusuke Iwasawa. Large language models are zero-shot reasoners. In Advances in Neural Information Processing Systems (NeurIPS), 2022.
[9]. Zeqiu Wu, Yi Luan, Hannah Rashkin, David Reitter, and Gaurav Singh Tomar. Conqrr: Conversational query rewriting for retrieval with reinforcement learning. Conference on Empirical Methods in Natural Language Processing (EMNLP), 2022d.
[10]. Nye, M., Andreassen, A. J., Gur-Ari, G., Michalewski, H., Austin, J., Bieber, D., … & Odena, A. (2021). Show your work: Scratchpads for intermediate computation with language models. arXiv preprint arXiv:2112.00114.
[11]. Taylor, Ross, Marcin Kardas, Guillem Cucurull, Thomas Scialom, Anthony Hartshorn, Elvis Saravia, Andrew Poulton, Viktor Kerkez, and Robert Stojnic.“Galactica: A large language model for science.”arXiv preprint arXiv:2211.09085 (2022).
[12]. https://openai.com/blog/chatgpt-plugins
[13]. Driess, Danny, Fei Xia, Mehdi SM Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan Wahid et al.“Palm-e: An embodied multimodal language model.”arXiv preprint arXiv:2303.03378 (2023).
[14]. Timo Schick, Jane Dwivedi-Yu, Zhengbao Jiang, Fabio Petroni, Patrick Lewis, Gautier Izacard, Qingfei You, Christoforos Nalmpantis, Edouard Grave, and Sebastian Riedel. Peer: A collaborative language model. arXiv preprint arXiv:2208.11663, 2022.
[15]. Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., … & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730-27744. short for InstructGPT
[16]. Johnson, Jeff, Matthijs Douze, and Hervé Jégou.“Billion-scale similarity search with gpus.”IEEE Transactions on Big Data 7, no. 3 (2019): 535-547.
[17]. Gautier Izacard and Edouard Grave. Leveraging passage retrieval with generative models for open domain question answering. arXiv preprint arXiv:2007.01282, 2020.
[18]. Harsh Trivedi, Niranjan Balasubramanian, Tushar Khot, and Ashish Sabharwal. Interleaving retrieval with chain-of-thought reasoning for knowledge-intensive multi-step questions. arXiv preprint arXiv:2212.10509, 2022.
[19]. Shuster, Kurt, Jing Xu, Mojtaba Komeili, Da Ju, Eric Michael Smith, Stephen Roller, Megan Ung et al.“Blenderbot 3: a deployed conversational agent that continually learns to responsibly engage.”arXiv preprint arXiv:2208.03188 (2022).
[20]. Yao, Shunyu, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, and Yuan Cao.“React: Synergizing reasoning and acting in language models.”arXiv preprint arXiv:2210.03629 (2022).
[21]. Nakano, R., Hilton, J., Balaji, S., Wu, J., Ouyang, L., Kim, C., … & Schulman, J. (2021). Webgpt: Browser-assisted question-answering with human feedback. arXiv preprint arXiv:2112.09332.
[22]. Huang, Wenlong, Pieter Abbeel, Deepak Pathak, and Igor Mordatch.“Language models as zero-shot planners: Extracting actionable knowledge for embodied agents.”In International Conference on Machine Learning, pp. 9118-9147. PMLR, 2022.
[23]. Zeng, Andy, Adrian Wong, Stefan Welker, Krzysztof Choromanski, Federico Tombari, Aveek Purohit, Michael Ryoo et al.“Socratic models: Composing zero-shot multimodal reasoning with language.”arXiv preprint arXiv:2204.00598 (2022).
举荐浏览:
基于公共信箱的全量音讯实现
百度 APP iOS 端包体积 50M 优化实际(二) 图片优化
浅论分布式训练中的 recompute 机制
分析多利熊业务如何基于分布式架构实际稳定性建设
百度工程师的软件品质与测试随笔[](http://mp.weixin.qq.com/s?__biz=Mzg5MjU0NTI5OQ==&mid=22475598…)
百度 APP iOS 端包体积 50M 优化实际 (一) 总览