关于人工智能:ChatGPT作者John-Shulman我们成功的秘密武器

起源｜TalkRL
OneFlow编译
翻译｜杨婷、徐佳渝、贾川

除了OpenAI，外界可能很少有人晓得ChatGPT模型胜利的真正起因，实际上，OpenAI也会对ChatGPT领有的微小影响力感到不堪设想。这种困惑和惊喜就像工程师们解bug时取得的意外胜利：We don't know why, but it works.

一种广泛的认识是，ChatGPT没有任何革命性技术，正如Meta 首席AI科学家Yann LeCun所说，“只是一些奇妙的技术组合而已”。当然，听到这话的围观大众未免调侃LeCun这种同行评议是“吃不到葡萄说葡萄酸”，不过，从ChatGPT的缔造者们后续的表态来看，恐怕也不会否定他的“酸话”。

早在2022年1月，OpenAI公布了另一款GPT-3.5微调版本InstructGPT，这是ChatGPT的“兄弟模型”，如果用规范基准来评估它们的原始技术能力，两个模型之间并没有实质性不同。依据OpenAI科学家们的说法，ChatGPT用的微调办法稍有不同，并且增加了一些对话数据，这让ChatGPT更易上手和易用，由此产生了很大的侧面影响。

新增的对话数据诚然重要，不过，让ChatGPT更容易推断出用户的用意，产生量变的根本原因是已在InstructGPT应用的“人类反馈的强化学习（RLHF）”技术，OpenAI联结创始人、钻研科学家John Schulman认为，RLHF才是ChatGPT的秘密武器（secret sauce）。

简略来说，强化学习是让研究者像训练狗一样训练AI智能体，并为其做出的正确响应提供处分，而RLHF的基本思路是，教会大型语言模型学习人类用户真正喜爱的答复偏好来进一步调整模型的响应。

RLHF技术背地的其中一个作者正是John Schulman，很多人不晓得的是，他也是ChatGPT我的项目的次要负责人。

作为强化大学大牛，John在这一畛域作出过许多重大贡献，例如创造了TRPO算法（信赖域策略优化，Trust Region Policy Optimization）、GAE（狭义劣势预计，Generalized Advantage Estimation）以及TRPO的后辈近端策略优化（Descendant Proximal Policy Optimization），也称PPO算法。值得一提的是，其博士导师是强化学习畛域的开拓者Pieter Abbeel，并且也在OpenAI创建初期工作过一段时间。

在ChatGPT公布前一个月，John Schulman在Robin Ranjit Singh Chauhan主持的TalkRL播客节目中，具体介绍了RLHF想法的产生源头，InstructGPT以WebGPT的次要思维，并论述了AI对齐以及对AGI实现的认识。从中，咱们也能够看到ChatGPT技术演进的脉络和未曾在论文中被形容的细节，以及OpenAI团队的下一步钻研方向。

（以下内容经受权后由OneFlow编译公布，译文转载请分割OneFlow取得受权。起源：https://www.talkrl.com/episodes/john-schulman）

1 为什么要关注RLHF

Robin Chauhan：作为深度强化学习的晚期开拓者之一，你为什么去关注“人类反馈的强化学习（RLHF）”？

John Shulman：GPT-3训练实现后，它的智能水平让我非常吃惊。我意识到AI畛域的下一个前沿在于真正施展语言模型的作用。我依然对RL十分感兴趣，但解决RL基准测试并不是咱们的最终目标。

要应用RL算法，必须通过处分函数，然而处分函数从何而来？在RL基准测试中，咱们能够本人编写处分函数，但这种办法必须要在模仿环境（simulator environment）中才行得通。所以在事实世界用例中，咱们必须要人工监督AI的行为，以分辨好坏。所以如何定义处分是一件极具挑战性且至关重要的问题，尤其是在工作评估难度逐步加深的状况下。

另一方面，尽管当初语言模型十分聪慧，但却难以将它们用在有价值的事件上。因为它们不会依照咱们的志愿去工作，只是在单纯地模拟训练语料库，但这也阐明只有给语言模型一个正确的指标，它们就很有可能改良上述问题，也就是说，咱们能够在语言模型中利用强化学习，应用人类反馈去定义处分。

Robin Chauhan：相比合成处分（synthetic reward），人工反馈是否更难，或者说这两者之间在肯定水平上大有不同？

John Shulman：应用人工反馈会遇到很多新问题。当初，咱们必须要动静收集数据集，所以要花很多工夫去建设人类偏好的数据集，相比各种算法细节，数据集的品质更加重要。另外咱们还要思考如何将任务分配给人工训练师等问题，如果有程序化的处分函数，这些问题咱们本不必思考。

Robin Chauhan：人工评分员之间的差别或处分信号的乐音是否会造成问题？

John Shulman：实际上，乐音并不是我最放心的问题，比较而言，我更放心人们的惯有偏见。例如，在问题答复或模型编写文本等设置中，人们通常更偏差于较长的答案，这会导致模型给出的答案日渐简短。所以咱们要留神领导人工评分员，让他们处分简洁的答案，如果对这一问题不加留神，可能会激励模型的错误行为。

2 用RLHF实现指令追随模型InstructGPT

Robin Chauhan：2022年3月，你与Long Ouyang、Jeff Wu等人发表了论文《Training language models to follow instructions with human feedback》，你能简要介绍下InstructGPT的次要思维吗？

John Schulman：InstructGPT是一种通过微调以遵循指令的语言模型。OpenAI的官网上有一个大文本框，在文本框中输出内容后点击提交就能够实现一个指令。语言模型十分有用，只需输出提醒词就能够使其来实现本人想做的事件。

比方你能够先在文本框中输出问答示例，而后你提出另外一个问题，InstructGPT就能够雷同的形式予以答复，人们能够让语言模型通过提醒来做一些很棒的事件。但“提醒”自身也是一门艺术，很难做到准确无误，模型也不肯定能完满辨认提醒的外延。如果你只是采纳原始模型与之对话，那么你失去的答案可能就有点不尽如人意了。

通过InstructGPT，咱们发现要对语言模型进行一些小的改变，就能够使它们更容易应用。具体来说，咱们要对它们进行训练，以便当你的一段文本蕴含指令时，模型能够尽力依照指令进行操作。简直任何货色都能够作为指令。例如，指令能够是持续聊天，对这段文本进行总结，或者是提供一份销售某个小部件公司的名单。

这就是指令追随模型（instruction following model），能够执行任何你给定的指令。不过我并不是这项工作的外围贡献者，我次要参加了强化学习基础设施和实现强化学习的训练细节。

在这个我的项目中咱们所做的就是：在指令追随设置中运行了RLHF中的整套方法论。所以咱们进行了有监督微调（supervised fine tuning），收集偏好数据，训练了一个处分模型（reward model），而后依据该处分模型进行了强化学习。

在训练之初，咱们应用的数据是由外包商收集的。但起初咱们有了API和官网上的Playground（一个大文本框，能够在其中应用模型），咱们就应用在Playground中收集到的指令来进行训练（用户在应用之时就会收到提醒：你的指令可能会用于训练）。这样既能够收集偏好数据，又能够进行强化学习。同时须要留神：训练时不能存储prompt中的任何信息。咱们有一套相当简单的流程来确保没有私人信息泄露到模型中。

结果表明，这种办法十分无效。原始的语言模型通常很难依照指令执行。然而，通过强化学习训练后的指令追随模型要好得多。如果仅从改良水平来看，那么简直能媲美比这大100倍的模型。这是相当大的一个提高。

Robin Chauhan：看来你想要失去可信赖的模型，这是你的规范之一吗？

John Schulman：对于一个大型语言模型来说，真实性是重要规范之一。然而，这个模型是如何通过示例学习真实性的？难道真实性在模型外部被示意了吗？因为模型没有内部参考来确认某些货色是实在的还是虚伪的，那么它如何晓得什么是实在的？

某种程度上，模型外部是有真实性示意的。咱们能够将语言模型看作是对整个互联网的模拟，而互联网是由许多不同的人编写的，蕴含各种类型的内容，从小说到非小说，到技术文献、笑话以及论坛帖子等。因而，该模型实际上是由所有这些编写内容的人组成的“独奏团”。

当咱们输出一个prompt时，模型在外部必须要做的就是确定prompt是由谁编写的，并试图以该格调持续生成文本。比方，如果它认为正在浏览的内容是华尔街交易论坛上的货色，那么就持续以这种格调生成文本。然而如果它认为正在浏览纽约时报的内容，它又会以不同的形式写作。

因而，模型必须在某个中央进行计算，例如计算以后的格调是什么，或者正在模拟哪种较为小众的格调汇合。至多，在进行监督微调或齐全基于人类反馈的训练时，咱们能够放大模型生成的文本格调范畴，尝试模拟训练集中最好的人或最好的格调。

当然，“最好”会有很大的差别，最终失去的内容将取决于咱们的指令。如果咱们要求模型生成内容时不要太过于有争议，又要“企业化（corporate）”一点，那么生成的内容也就是这样。因而，咱们至多能够将模型限定到一个特定的格调，而不是互联网上所有的格调。

但我认为，这外面可能还有更多的内容。模型不仅仅是在学习文本格调，模型外部可能还在试图确定一些语句是否正确。当然，我下面所说的是对于原始预训练模型。我认为“预测下一个token”的指标会为咱们提供很多信息，这将迫使模型确定语句是否正确。

对于强化学习微调而言，我认为还会赋予模型更多的后劲去生成可信赖的货色，而不是仅仅模拟某种格调，但当初还很难确定模型是否在这样做。当初还是prompt在疏导着模型去获取互联网上那些咱们想要的货色，模拟咱们想模拟的内容。而咱们想使InstructGPT更多地关注互联网上那些更可信赖的货色。

3 语言模型的泛化能力

Robin Chauhan：无论如何，咱们应该模拟出互联网上最实在的一面。你是否谈一下泛化，以及这种模型在散布外（out of distribution）的体现如何？

John Schulman：总的来说，语言模型整体上具备惊人的泛化能力。我认为，像这些在互联网上受过多元化数据训练的预训练模型，它们通常泛化得相当好。至多对于那些在机器学习晚期就接触过这些技术的人来说，这很令人诧异。例如，即便是用其余语言，甚至是一种绝对常见的语言提供指令，模型通常也可能很好地遵循，即便整个训练过程中没有任何数据是用该语言编写的指令。这就是从预训练中连续下来的能力。

这理论是一个对于处分模型的问题，举个例子：如果问题有点不同于它所承受的训练，比方在处分模型的训练数据中略微偏离一点，那么会产生什么呢？

我认为，RLHF的一个辣手问题是：对处分模型进行训练时，也就是在训练policy以取得高处分，意味着这会利用处分模型中的谬误。它最终会找到针对处分模型的反抗示例，但这比失常的散布外行为（out of distribution behavior）更蹩脚。因而，在将处分模型尽可能地泛化到训练集之外的确存在一些挑战。

当这些类型的Agent遇到某些难题时会揭示它不晓得吗？我认为，如果你问一个模型常识外围的问题，它会晓得答案，而且它也晓得本人晓得答案（这里指的是Instruct类的模型）。但如果你问它对于其常识边缘的问题，那可能答复起来会有艰难，必然会呈现不精确的状况。有几篇论文还探讨过这个问题，比方Anthropic发表的Language Models, mostly know what they know，OpenAI发表的Teaching Models to Express Their Uncertainty in Words。这些语言模型以及机器学习中许多其余模型都是为了最大化可能性而进行训练的。

鉴于曾经训练过Agent始终预测输入的散布（distribution of outputs），因而，对于语言模型，只有给定前缀，它就会预测下一个token的散布，而且通常预测的相当精确。如果它在预测某项工作有80%的概率，而且每次都是80%，那么它的正确率就为80%。

这只是训练指标的后果。训练指标激励对模型进行校准，这是因为模型校准能够进步不确定性预计的准确性。

因而，对于单个token级别，模型必定通过校准。问题是，模型校准是否精确？校准后的模型是否能利用于多个token输入的情境中？又或是它们是否能够判断多个token语句的正确性？

因为模型通过单个token级别进行校准，所以我认为它们在不同环境中须要校准的信息的确不同。这就是我认为模型不难精确表白出校准信息的起因，或者至多让模型像人一样很好地表白不确定信息，这个问题也并非无奈解决，但在实践中，须要解决一些理论的艰难。

4 AI对齐工作进入第二阶段

Robin Chauhan：人们对于“AI对齐（ AI alignment）”有不同的了解形式，你如何对待RLHF方面的对齐工作？

John Schulman：在我看来，AI对齐的次要指标是让模型通过训练晓得人类的用意，并在执行工作时做出合乎人类冀望的行为。因而，咱们须要分辨模型的能力。例如，当咱们给一个原始语言模型提出一个问题时，它可能并不知道咱们心愿它给出一个完满的答案。相同，它可能会假如咱们只是心愿失去一个合乎语法和语义规定的答复。

Robin Chauhan：OpenAI的一篇博客探讨了对齐序列（sequence in alignment），一共包含三个阶段：第一阶段是应用人类反馈训练AI零碎，第二阶段是训练AI零碎帮助人类反馈，第三阶段是训练AI零碎进行对齐钻研。所以你目前的工作次要是应用人类反馈训练AI零碎，那何时以及如何能力进入其余阶段？

John Schulman：我当初正在做第二阶段的工作，即训练AI零碎以帮助人类反馈。当咱们开始尝试让零碎解决更具挑战性的问题时，第二阶段的工作就变得越来越重要。当模型的性能远低于人类程度或在某些工作上达到人类程度时，监督它们非常容易。然而，当模型解决的工作十分艰难，须要大量不同的技术常识时，就很难提供无效的监督信号。

为了解决这个问题，咱们能够采取一些措施，比方利用两个模型：针对某个问题，一个模型给出相应的答案，而后另一个模型对该答案提出批评意见，指出不足之处。这样，人们在看完批评意见后，就只须要判断答案是否正确，批评有助于人类更精确地评估答案。这一想法非常重要，我和共事们正在摸索。此外，OpenAI也正在做一些工作来帮助对齐钻研，不过实现这项工作任重而道远。

Robin Chauhan：Stuart Russell是OpenAI博士委员会的成员之一，我十分喜爱他的《人类兼容性（Human Compatible）》一书。他指出，规范强化学习框架通常是基于固定处分信号的，而这种框架存在肯定的问题。针对该问题，咱们须要造就弱小的Agent，使其尝试做咱们想做的事件，同时对咱们的用意放弃一种狐疑态度，因为确定的Agent会存在肯定问题。你如何对待这一观点？

John Schulman：我齐全同意Stuart Russell的观点。首先，编写一个简略的处分函数来捕获咱们的用意是十分艰难的。咱们心愿Agent可能了解咱们的用意，并以最好的形式来实现这些用意，而不是自觉地谋求某些极其的后果。

在构建Agent时，咱们应该确保它们放弃一种狐疑态度，以便更好地了解咱们的用意和指标。这也能够帮忙Agent更加审慎地采取行动，以确保它们在实现目标的同时也思考到其余重要的因素。

Stuart Russell提出了一个很好的问题定义，即让AI与人类独特玩一个游戏，该游戏的指标是让AI尝试了解人类的用意，并采取行动尝试满足这一用意，同时放弃肯定的狐疑态度。

我认为，如果咱们开始思考如何将Russell所形容的指标利用到实际中，就会发现实际上这与OpenAI以及其余组织正在进行的RLHF钻研十分类似。咱们正在努力实现这一指标。

5 WebGPT的想法从何而来

Robin Chauhan：2021年，你和Nakano等人独特发表论文《WebGPT：基于人类反馈的浏览器辅助问答》，能解释下WebGPT次要想解决的问题吗？

John Shulman：在WebGPT中，咱们将语言模型与网络浏览器相连，以便从网络中检索信息。这些语言模型能够通过总结网络上的相干信息来写答案，这样一来，如果你对时事热点发问，或者询问一些须要具体迷信或技术常识的问题，AI就能够在网络上查找答案，并具体援用其起源。

在文中，咱们次要探讨了两个问题。首先，咱们曾试图将语言模型变成一种Agent，人们在网络上编写了很多不同类型的文本数据，但对于如何理论执行多步骤过程的数据却很少，因而，咱们不确定语言模型是否能够理论执行某些迭代过程，咱们有很多数据，但这些数据基本上都和写论文、聊天等相干，这是咱们在论文中探讨的第一个问题。

对于这个问题，我认为答案是必定的。在这种状况下，咱们能够让Agent应用咱们提供的工具，比如说搜寻、滚动、单击链接等浏览命令。

其次，咱们还探讨了信息的真实性问题，这是语言模型面临的一大难题。尽管语言模型把握着海量常识，但如果咱们向模型中输出谬误的提醒，它们可能会输入很多似是而非的废话。在语言模型畛域，如何解决这一问题很值得钻研，问题的解决与否也关系着语言模型的倒退。

这个问题很有挑战性，最重要的是，咱们要让模型检索、编写带有援用的答案，同时要确保援用起源的可信度。这样人们就不用再花工夫去寻找模型答案的起源，他们能够间接点击援用链接，查看模型答案是否可信。

在WebGPT中，咱们试图弄清楚如果咱们的确给语言模型提供了灵便的Web界面，它是否在援用的帮忙下如实答复问题，搞清楚这一点十分重要。人们搜寻的问题形形色色，这些问题可能与迷信、历史、时事等相干，人工评分员不肯定具备这些问题的相干常识，但他们须要判断细节信息，如果没有援用，这就会成为一件难事。所以，在肯定水平上，咱们证实了在援用的帮忙下能够在艰深畛域内取得良好反馈。

Robin Chauhan：WebGPT的想法从何而来？是三思而行之后的后果，还是在论文发表前忽然冒出来的？后果怎么样？

John Shulman：这个想法其实由来已久。很久以前，咱们在OpenAI有一个叫作World of Bits的我的项目（译者注：OpenAI Universe我的项目的前身）。在那时，咱们想要管制Web浏览器来执行波及互联网的工作，不过过后还为时过早，所以这个想法搁置了几年。

咱们尝试过残缺的视觉输出，那时的想法是给Agent输出相似“找出大楼地址”等批示，而后Agent会通过Web、谷歌地图等办法寻找答案，过后咱们试图以像素的形式来实现这所有，但显然这种形式并不好，当初咱们能够用大型语言模型来解决这些文本信息。

咱们能够从网页中提取文本以获取大部分信息，但临时还不能与动静网站进行真正地交互，因为这些网站中有大量JavaScript和图片等内容，除了这些内容之外，咱们能够很顺畅地浏览和浏览文本。因为咱们的模型足够好，所以重新考虑将互联网作为环境来应用。

另一个动机是，在开始应用GPT-3进行尝试之后，咱们留神到它在事实准确性和提供的信息可靠性方面存在问题。因而，咱们又开始钻研如何使语言模型更具真实性。咱们先进行了头脑风暴，最终决定尝试应用网络进行问答，查找网络上的常识来帮助答复问题。

该项目标原始版本实际上应用了一些常见的问答数据集，例如Trivia QA（其中蕴含一些根本的常识问题）。咱们在该数据集上进行了一些尝试，试图通过给模型提供网络搜寻来进步模型的准确性。工作发展得很顺利，所以咱们又转向了长篇问答，使该项目标工作更进一步。

Robin Ranjit：看起来WebGPT想让语言模型能拜访内部常识。问题是，你认为哪些货色是语言模型能够晓得或者容许搜寻到的？哪些货色又不能让语言模型拜访？这之间有明确的界线吗？

John Schulman：有人提倡应用只蕴含语言的小型模型，我认为这种立场有点极其；还有人倡议容许使语言模型晓得所有货色，但不能受权其取得内部常识的路径。我认为，很难将常识、事实性常识与了解辨别开来。人类记不住所有货色，但在须要用到某项常识时，咱们能够去查问。

对于特定畛域的工作者来说，进行事实内化是很有用的，这样能够在须要用时疾速调用，并在脑海中将其进行组合。

所以这两种说法我都不同意，我认为，检索至多对以后事务很有用，而且咱们也没想过要使神经网络涵盖人类所有的常识。

另一方面，人类很侥幸，曾经扩充了模型。随着排汇的事实常识越来越多，模型在推理和其余事件上也会做得越来越好。截止目前，我还没有看到任何微型模型能够做大量检索并保留所有权重以进行推理。

6 行为克隆、处分模型、强化学习和回绝采样

Robin Chauhan：在这个我的项目中，你如同应用了多个不同的数据集和不同的训练方法，包含行为克隆（behavior cloning）、处分模型（reward modeling）、强化学习（reinforcement learning）和回绝采样（rejection sampling）。

John Shulman：咱们应用的是一种相当规范的办法，该办法实际上是从以前的RLHF工作中改编而来的。具体流程是，首先应用监督学习来训练一个模型，在这个过程中，人类演示者展现如何实现工作，例如如何从察看映射到动作。这个过程就是所谓的监督学习或者行为克隆。

接下来，咱们就会训练一个处分模型或偏好模型。它会比拟两个动作或两条轨迹，而后决定哪一个更好。在问答的情境下，咱们会比拟两个答案并判断哪一个更好。咱们应用这个模型来训练一个处分模型，该模型会给答复打分，答复的好，分就高，反之则低。

而后咱们依据这个处分函数进行强化学习。当然，在进行大量的强化学习之后，你能够迭代执行最初两个步骤。如此一来，就能够利用处分模型中的一些缺点或噪声。如果新数据分布不精确，就须要从新收集更多的样本对，并从新拟合这个偏好模型。而后再进行一轮强化学习。这就是残缺的RLHF的流水线。

另外还有一个叫做回绝采样或者最优端采样（best of end sampling）的想法。一般来说，你也能够进行其余类型的搜寻。当有了处分模型后，你能够对一堆样本进行从新排序，并抉择最好的做法。

Robin Chauhan：这有点像MPC（Model Predictive Control，模型预测管制）?

John Shulman：是的。这取决于咱们所处的环境以及所做的事件。如果处于交互式环境中，就必须模仿环境动静，这一点和MPC很像。在咱们的案例中，惟一须要学习的模型是人类偏好。比方在问答环境中，咱们能够轻易地对一堆操作（actions）进行采样，其中每个操作都是一个残缺的答案，并且能够将它们从新排名或搜寻答案。

Robin Chauhan：就动作空间（action space）而言，它是否只是命令列表？还是说它依然像惯例生成模型一样生成tokens？

John Shulman：咱们正在生成tokens。在咱们的RL工作中，每一回合都有两个阶段。首先是浏览阶段，模型会搜寻、点击并援用相干信息。比方模型在网页上看到了有用的信息，就会应用quote命令对信息进行援用。

浏览实现后，模型会收回完结浏览的命令，这都会用token来示意。然而，咱们将这个过程整合到了大的RL工作中，一个大的回合（episode）蕴含了浏览网页和给出答案两个阶段。

Robin Chauhan：这种办法的成果如何？

John Shulman：最开始咱们不晓得它是否会胜利。在咱们用Trivia QA做了最后的试验后，很快就开始运行了，很显著浏览局部起了作用，另外如果给模型一些能够援用的文本片段，它们就能够生成优质的长文本。

7 为什么不能应用内部反馈

Robin Chauhan：人工评分员的工作非常复杂，有很长的评分指南和多种类型的反馈。然而论文最初示意只有最终评级才有用。我想晓得为什么模型不能应用内部反馈，是因为内部反馈太多了还是因为样本不够？

John Shulman：是的，这一发现的确让人丧气。在比照一组答案时，评分员的每次比照都要经验一个很长的过程，然而咱们只会用到整个过程中的小局部信息，而这一小部分信息的比照工夫可能长达半小时左右。

如果咱们能提取出更多信息，理解更多他们得出答案的过程，那么可能会更好一点。所以咱们收集了各种其余信息，比方不同维度给出的评分、连贯性和事实准确性等。

因而，我感觉应该还能做得更好。但可怜的是，这种看似有点愚昧的办法其实很难超过。人们曾经尝试了各种方法，比方以人类反馈来代替偏好分数。此外还有其余的事件能够做，比方能够让模型进行批判性写作或编辑答复。

Robin Ranjit：是的，我认为其中一些事件也有可能实现，而且这种收集偏好数据的办法很无效。

John Schulman：是的，我认为这依然是一个凋谢的钻研畛域。

Robin Ranjit：再谈谈那些简短的指令吧。

John Schulman：在实现任何工作时，都须要遵循许多奥妙的规定和细节。因而，在编写指南时，咱们一直增加了更多细节，比方你在这种状况下会做什么？在另一种状况下又会怎么做？然而，随着细节的一直减少，这些指令变得十分简短。

不过，这个问题还是有方法解决。DeepMind发表了相干文章，应用Sparrow将工作分解成更小的局部并进行训练，人们一次只关注一个局部，以便更好地了解和把握每个局部的细节和规定。此外，研究者还训练了多个规定，特定的处分模型，以更好地捕获工作的不同方面和细节，并在最初进行合并。

8 强化学习与AGI的将来

Robin Chauhan：自从你公布TRPO和PPO算法以来，强化学习畛域获得了哪些重要的停顿？

John Schulman：在PPO算法之后，呈现了基于价值的TD3和SAC算法，这些算法都体现出了相当高的可靠性。MuZero和Efficient Zero是无效的强化学习算法，Efficient Zero的样本效率体现令人印象粗浅，它可能在应用更少样本的状况下达到很好的成果。这些算法可能在一些简略的工作（toy task）或基准测试中体现较好，也开始被利用到一些理论问题中，这是十分有意思的。

近来，离线强化学习（offline RL）备受关注。我认为，RLHF就是一种离线强化学习。因为在训练过程中，它应用的是事后收集的数据集和处分模型数据集，而无需实时与环境进行交互。

Robin Chauhan：RLHF和传统的离线强化学习算法的确有些类似，然而其办法和技术有所不同。传统的离线强化学习算法通常应用Off-policy算法，而基于RLHF算法通常应用On-policy算法和一种处分模型。这些差别是否影响了正在执行的工作？

John Schulman：咱们正在做一项相似基于模型的强化学习（model-based RL）的工作，而处分模型就是对系统的未知局部的建模。咱们须要思考到人类因素的影响，而不是仅仅关注机器的输入后果。

这项工作也相似于应用环境的动力学模型（dynamics model of the environment），并运行一些策略评估算法（policy grading algorithm）来评估模型的成果。尽管反抗机器学习模型的在线算法曾经是一种成熟的想法，但之前的研究所处的情境与当初曾经大不同。当初咱们能够利用训练好的预训练模型，只需进行一些小幅度的策略更新即可实现目标，而不用进行大规模的模型更改。因而，咱们采纳了这些在线算法，这也与咱们始终在钻研上下文赌博机（contextual bandit）的问题无关。

因为只有一个工夫步，例如，收到一个查问并输入一个响应，而后该响应会取得处分。因而，在多步骤（multi-step）过程中，不能立刻取得处分调配。对话就是一个例子，其中波及到多个步骤，不能在每个步骤中对其进行处分调配。相同，必须在对话完结后能力调配处分。

另外，当模型与一些难以模仿的真实世界零碎进行交互时，不能齐全应用雷同的办法来解决问题。为了进步办法的采样效率，可能须要采纳一些略有不同的办法。例如，能够训练一个Q函数或相似的函数来解决问题。

咱们行将开始摸索上述问题。然而，到目前为止，在我所关注的畛域中，尚未发现须要采纳该办法的状况。但据我预计，这种办法在将来会变得非常重要。

Robin Chauhan：AGI、RL及大型语言模型之间的关系是什么？它们又是如何相互配合的？

John Schulman：强化学习（RL）是训练人工通用智能（AGI）要害办法之一，它能够用来优化Agent的行为，以达到某种指标。在强化学习中，任何指标通常被视为Agent行为函数的一部分。与语言模型预训练相似，强化学习也须要抉择一个指标并利用大量的训练数据（如互联网文本）来优化Agent的行为。

此外，咱们会抉择最大似然指标函数（maximum likelihood objective）来作为Agent的训练指标，尽管还有其余的指标函数可供选择，但最大似然指标函数是理智之选。如果真的想通过优化Agent行为以达到特定指标，那么强化学习是最适宜的框架。

Robin Chauhan：AGI是一种形象指标吗？还是说咱们无望在某一天看到AGI模型问世？模型问世之时，人们会惊叹，“这是首个AGI模型”。那么，人们对该模型的评估又会如何？

John Schulman：我认为当AGI真正问世的时候，通过屡次试用，人们会意识到它并非完全符合咱们的预期。尽管咱们可能会看到很多模型在某些畛域或某类工作上超过人类，但它们依然存在一些生效模式和弱点。例如，可能会呈现多个自称AGI的模型，但只有在与其交互一段时间后，人们才会发现它们无奈齐全达到AGI的程度。

Robin Chauhan：据你预计，AGI还有多久问世？

John Schulman：距AGI的问世不会太边远，不过过程中必定会呈现许多误判。预计在将来的五年工夫里，AI可能在大多数人类目前从事的工作上体现得比人类更好。当然，并非所有工作都会被AI取代，人类依然会在某些畛域享有控制权。因而，在将来的10到15年中，咱们会见证AI逐步推进的整个过程。

相干参考链接

https://www-technologyreview-com.cdn.ampproject.org/c/s/www.t...
WebGPT: https://arxiv.org/abs/2112.09332
InstructGPT：https://arxiv.org/abs/2203.02155
Our approach to alignment research, OpenAI 2022
Training Verifiers to Solve Math Word Problems, Cobbe et al 2021
UC Berkeley Deep RL Bootcamp Lecture 6: Nuts and Bolts of Deep RL Experimentation, John Schulman 2017
Proximal Policy Optimization Algorithms, Schulman 2017
Optimizing Expectations: From Deep Reinforcement Learning to Stochastic Computation Graphs, Schulman 2016

欢送 Star、试用 OneFlow 最新版本：https://github.com/Oneflow-Inc/oneflow/