关于深度学习:使用思维链Chainofthoughts提示在大型语言模型中引出推理

108次阅读

共计 2334 个字符，预计需要花费 6 分钟才能阅读完成。

语言模型 (LM) 在 NLP 畛域的倒退速度十分快，特地是在大型语言模型 (LLM) 方面：当语言模型具备大量参数或权重 / 系数时，它们被称为“大型”。这些“大型”语言模型领有解决和了解大量自然语言数据的能力。

LLM 被用于一系列自然语言工作，如文本摘要、情感剖析、主题分类、语言翻译、主动实现等。扩大 LM 的一些宽泛的益处包含进步性能、泛化和效率，尽管这些模型执行的大多数工作都受害于扩大，但像算术、常识和符号推理这样的工作在扩大模型时没有看到性能的进步。

这就引出了“思维链提醒”的办法，通过生成一系列两头推理步骤或思维链来进步法 LLM 的简单推理能力。这种办法基于两个想法：1、思考到 LM 能够被训练来生成自然语言的两头步骤，减少自然语言的基本原理可能是一个额定的益处；2、当通过上下文少样本办法提醒时，LLM 在问答工作中获得了显著的胜利。但在实践中，为训练训发明大量的理由是费时费力的。所以将这两种思维联合起来，就产生了一个模型，只有有几个由 <input, chain-of-though, output> 三元组组成的提醒，模型的性能会失去改善。

思维链是解决推理工作时人类思维过程遵循的一系列典型步骤。它能够帮忙咱们将一个问题分解成一系列的子问题，而后一一解决这些子问题，从而得出最终的答案。在大型语言模型中，思维链能够用来引出推理。思路链办法带来以下益处：

因为问题能够分为多个步骤，因而能够将额定的计算调配给简单的问题
推理门路提供了一个调试模型可能出错的窗口
任何个别的 LLM 都能够通过提供思维链提醒来为简单的推理工作做筹备

上图显示了 LLMs 在数学单词问题上应用思维链提醒的体现后果。y 轴是后果体现，x 轴上是模型大小的比例。

只有在足够大的模型中能力看到思维链提醒为 LLM 带来的益处。因而大型模型是必要的，但还不够
对于更简单的推理问题，性能的进步更大。鉴于 GSM8K 与 MAWPS 中问题的复杂性升高，GSM8K 中的性能增益对于大型模型简直翻了一番
大型 GPT 和 PaLM 模型中的思维链提醒的性能与之前的 SOTA 办法相当，其中包含在标记的训练数据集上微调模型
除了上述几点外，对 PaLM 62B 谬误的分析表明，当模型缩放到 540B 时，很大一部分的缺失和语义了解都失去了修复，这进一步强化了通过思维链提醒进步 LLM 推理能力须要大模型的观点

融化试验

性能改良将依据三种不同的思维链提醒进行评估

仅限方程: 零碎提醒模型仅在响应数学应用题时输入方程式。这些模型在 GSM8K 上的这个提醒上体现不佳，这表明在没有给出思维链中的步骤的状况下，这些问题的语义对于模型来说太具备挑战性，无奈为它们输入方程。

仅进行变量计算: 这种变动背地的思维是模型在简单问题的计算上破费 (令牌) 更多。在拆散提醒时，提醒的两头步骤是有用的。

答复后的思维链: 这种变动测试思维链是否只是让模型拜访预训练常识。给出答案后产生思维链的提醒，其体现与基线雷同，这表明在思维链的两头步骤中可用的推理比激活常识更必要。

稳健性钻研

评估从 GSM8K 训练集到 LaMDA 137B 的不同正文和示例给出的思维链提醒的稳健性时，所有这些思维链提醒的变体都大大优于规范提醒。

除算术推理外，还对模型进行了常识性和符号推理评估

尽管 PaLM 模型在 CSQA 上的性能晋升很小，但它在 StrategyQA 上的体现超过了之前的 SOTA，对于静止了解上也超过了一个独立的人类静止爱好者。

下图显示了 PaLM 模型在域内 (示例和测试中的步骤数雷同) 和域外 /OOD(测试中的步骤多于示例)上的评估后果。只管对于域内测试，曾经在思维链中提供了完满的解决方案构造，但小型模型体现不佳。

尽管思维链提醒假如建设在人类推理过程的根底上，但神经网络是否“推理”的问题依然没有答案。在调优的状况下，手动提供示例的老本可能十分高，因为此过程将须要更多的示例。尽管应用示例的模型遵循“正确”推理门路的可能性很高，但不能保障这一点。为了实现思维链推理能力，模型必须“大”，这一先决条件使得它在理论利用中的应用代价昂扬。

这篇论文的钻研表明，思维链提醒进步了模型在算术、常识和符号推理工作上的性能，但扩充模型能够执行的工作范畴和升高这些模型改良推理的尺度阈值是潜在的宽泛钻研畛域。

论文地址：https://avoid.overfit.cn/post/f281ad2e54614d029c8061cc693376ed

介绍这篇论文的另外一个起因是能够应用思维链进步 ChatGPT 的后果，因为思维链是一种逐渐合成问题、逐渐推理的思考办法，能够疏导模型生成更精确、更有逻辑性的答案。

对问题进行合成：将一个大问题分解成多个小问题，一一解决。这样能够使模型更好地了解问题的构造，进步问题的细节解决能力。
比拟和比照：将多个对象进行比拟和比照，找出它们之间的共同点和不同点。这样能够使模型更好地了解对象之间的关系，进步其分类和判断能力。
推理和预测：依据已知的信息，推断可能的后果。这样能够使模型更好地解决简单的问题，进步其推理和预测能力。
演绎和演绎：从具体情况中推导出个别法则，或者从个别法则中推导出具体情况。这样能够使模型更好地了解问题的实质和法则，进步其概括和推广能力。
假如试验：通过模拟实验来推断事物的实质或法则。这样能够使模型更好地了解事物的属性和行为，进步其推断和预测能力。

通过应用思维链的办法，能够帮忙 ChatGPT 更好地了解问题，进步其推理、预测、分类和判断能力。在输出问题时，能够尝试将问题分解成多个子问题，而后一一解决；在生成答复时，能够尝试进行比拟和比照、推理和预测、演绎和演绎等操作，从而生成更精确、更有逻辑性的答案。所以无论你看不看这篇论文，它的思路对咱们来说是十分重要的。

正文完