起源|TalkRL
OneFlow 编译
翻译|徐佳渝、贾川
同样是基于 GPT 预训练模型,为什么 ChatGPT 的成果要远远超出 GPT- 3 等前几代模型?答案曾经揭晓,成就 ChatGPT 的秘密武器在于 RLHF,也就是人类反馈的强化学习。
在预训练阶段,GPT 模型学习对于这个世界的所有,而在 RLHF 阶段,ChatGPT 更关注的让模型输入正确、无益的失当后果,并对后果一直进行微调。
具体而言,RLHF 阶段的调优又分为三大步骤:第一步:通过监督学习,用人类对不同提醒的“现实”答复数据微调 LLM;第二步:LLM 为每个提醒提供多个答案,而后由人工评估员对这些答案进行排名(该排名用于训练处分模型);第三步:用近端策略优化(PPO)模型来优化 LLM 的处分模型。
此前,ChatGPT 负责人 John Schulman 介绍了 RLHF 想法的起源,关键在于他们在语言模型中利用强化学习,应用人类反馈去定义处分函数。此外,OpenAI 的 RLHF 所应用的诸多技术也是基于前人钻研根底上组合而成的成绩,其中就包含 Natasha Jaques 的工作。
Natasha 是 Google Brain 的高级钻研科学家,OpenAI 的不少工作援用了她所发表的与 RLHF 和对话模型相干的强化学习论文。在近期 Robin Ranjit Singh Chauhan 主持的 TalkRL 播客节目中,她从第三方视角,介绍了对 RLHF 及其处分模型相干思路,以及对强化学习钻研与 AGI 倒退等方面的认识。
目前,她的钻研重点是社交强化学习(Social Reinforcement Learning),开发联合来自社交学习和多智能体训练的见解的算法,以进步 AI 智能体的学习、泛化、合作以及人机交互能力。2024 年 1 月,她将退出华盛顿大学计算机科学学院负责助理传授。
(以下内容经受权后由 OneFlow 编译公布,译文转载请分割 OneFlow 取得受权。起源:https://www.talkrl.com/episodes/natasha-jaques-2)
1
RLHF 相干钻研与老本效益
Robin Chauhan:你很早就开始了人类反馈的强化学习(RLHF)以及对话模型这方面的相似钻研,而且 OpenAI 发表的许多重要论文援用了你的研究成果。是否谈谈你的钻研与 OpenAI 以后的钻研和这些模型之间的分割?
Natasha Jaques:回到 2016 年,过后我正在思考如何利用预训练语言模型进行微调。具体来说,我关注的是 LSTM 模型,并尝试应用强化学习对其进行微调。那时,我关注的点不在语言自身,而是音乐生成和分子生成之类的办法,例如生成相似药物分子的办法。
在我看来,分子生成是一个很好的示例。咱们能够基于已知分子数据集去训练一个监督模型,并生成新的分子,然而这些分子可能不足咱们所需的个性,如易于合成药物。因而,咱们还须要对分子的“合成可及性(synthetic accessibility)”进行评估。但仅依附数据集训练是不够的,因为这样无奈失去优化的分子。如果仅仅优化分子的合成可及性,也可能会生成一些无用的分子。
因而,咱们须要对这两个方面进行评估和优化。对于这一问题,咱们能够应用强化学习来优化药物相似性(drug likeness)或合成可及性,但因为数据存在缺点,这种办法并不完满。
咱们提出了一个解决方案:首先在数据集上进行预训练,而后再应用强化学习来优化某些处分,同时最小化预训练策略与以后策略之间的 KL 散度。这种办法能够灵便地联合监督学习和强化学习,应用监督学习来取得数据集中的有用信息,同时应用强化学习来优化在数据分布空间内具备高回报的序列。能够看出,这与以后应用的 RLHF 办法密切相关。
在该技术中,咱们首先在数据集上对大型语言模型进行预训练,而后通过人类反馈来优化模型,同时最小化优化模型与预训练先验模型之间的 KL 散度,这对于 RLHF 框架有重要意义。
同时,我也在钻研从人类反馈中学习的 RLHF 办法。2019 年前后,咱们采纳了同样的 KL 管制办法,即让对话模型尝试优化与人类交谈取得的信号,而非让人类评估对话的好坏,同时采纳与 OpenAI 的 RLHF 算法不同的形式来实现偏好排序。
咱们的指标是从与人类对话的隐含信号中学习,而非仅仅依附人类的评估来进行优化。咱们不须要人们额定提供反馈,而是通过剖析文本的情感等隐含信号来为模型提供处分信号。
例如,当对话中的人听起来广泛快乐时,咱们就会将其视为侧面处分信号来训练模型。反之,当他们听起来丧气或困惑时,可能是模型说了一些胡话,咱们会将其视为负面处分信号。因而,咱们应用同样的技术来优化这些信号,以进步模型的体现。
Robin Chauhan:这听起来很像 ChatGPT 当初正在进行的工作。兴许函数迫近器(function approximator)略有不同,或是取得反馈的形式有所不同,但从底层原理来看,它实际上基于 RLHF。
Natasha Jaques:没错,不过也有一些要害区别。OpenAI 采纳了不同的办法来解决人类反馈,该办法与咱们在 2019 年的论文中所应用的有所不同,区别在于他们训练了一个处分模型。他们的办法是请一群人为两个输入评分,而后通过训练模型来迫近这些评分。实际上,早在 OpenAI 摸索应用人类偏好进行深度强化学习钻研时,就曾经提出过这个想法。
相比之下,我在 2019 年的钻研是对于离线强化学习(offline RL)。过后,我应用了特定输入的理论人类评分作为处分样本进行训练,但不足一个通用的处分模型。因为训练处分模型的办法能够进行屡次采样,实际上具备良好的可扩展性。
Robin Chauhan:OpenAI 联结创始人和 PPO 算法发明者 John Schulman 致力于钻研 RLHF。他谈到 ChatGPT 的兄弟模型 InstructGPT 须要大量的人类反馈。此外,须要具体而简短的评分阐明来评估人类反馈,而获取这些人类反馈须要付出相当大的老本。这种老本会限度 RLHF 的利用吗?还是说老本并不重要,从回报来看齐全值得?
Natasha Jaques:在 InstructGPT 之前,OpenAI 就曾经在摘要(summarization)方面进行了大量的钻研。而在摘要钻研中,可能无效使用 RLHF 的关键因素之一,是投入大量精力获取高质量的人类数据。
在 OpenAI 的一篇摘要钻研论文中,他们采纳了一种更好的评估者招募办法,钻研人员与评估者共享 Slack 群组,并答复评估者的问题以确保评估者与钻研人员保持一致。这样的投入显然是十分低廉的。
值得一提的是,在 InstructGPT 能够看到一个景象:应用 RLHF 训练的 13 亿参数模型的体现要优于应用监督学习训练的 1750 亿参数模型。也就是说,只需应用 RLHF,成果就能够赶超 100 倍大小的模型,而训练 100 倍大小的模型所需的计算成本相当低廉。尽管 OpenAI 并未公开他们用于收集人类数据和训练巨型模型的具体破费金额,但不难发现,因为 RLHF 能够升高训练更大型号模型的老本,实际上可能更具老本效益。
Robin Chauhan:在我看来,他们通常应用基于 on-policy 的 PPO(Proximal Policy Optimization)办法来解决数据集。这种办法无奈重复使用数据,因为它们依赖于以后模型样本数据或十分靠近模型的数据。如果对这些数据进行训练后,模型呈现偏差,那么该数据集是否依然无效?或者说该数据集是否能够用于训练其余模型?
Natasha Jaques:这些数据集并非是一次性的。处分模型的训练过程理论相似于对文本摘要进行比拟。这种比拟的后果不仅仅取决于策略模型自身,更是一种较为主观广泛的后果,所以具备 off-policy 个性,能够反复的应用这些数据。
2
处分模型的局限性
Robin Chauhan:John Schulman 指出,尽管人类反馈在训练过程中具备肯定有效性,但如果应用雷同的处分模型进行长时间训练,性能可能在某个时刻降落。因而我认为,在每个阶段后须要持续收集额定的人类反馈,而为了进一步提高性能,则可能须要应用全新的数据集。你怎么看?
Natasha Jaques:我不太熟悉 OpenAI 的工作,不过在我的工作中发现了这一景象:咱们尝试通过优化处分来实现目标,同时也思考到了数据的可行范畴,但很容易被处分函数所解放,造成适度依赖。
例如,在训练对话模型时,咱们应用了处分函数,激励模型与人类进行对话,同时输入高情感度的文原本获取踊跃的反馈。然而因为数据资源无限,咱们很可能会适度拟合数据和处分,从而导致模型在新数据上体现不佳。
咱们的指标是,在放弃模型适应数据分布(data distribution)的同时最大化处分。咱们应用了最大熵强化学习(maximum entropy RL)算法来找到最优策略,行为是否受到限制并不重要,而是会重复使用处分函数。因而,在应用处分形式来训练智能体时,它可能会体现得过于踊跃、礼貌和愉悦。
智能体的行为多样性建设在输入文本的多样性根底之上。我想晓得他们的后果是否存在相似的问题,即适度训练处分模型实际上会导致收益递加,甚至最终变成负面收益(negative return)。此外,处分模型自身仿佛并不完满,通过验证数据(validation data),你会发现其准确率大概在七成左右。因而在训练时,很可能会产生适度拟合。尚不分明处分模型是否足够全面,以形容优质的输入。
Robin Chauhan:现有的模型并不善于疏忽烦扰项,但这次要是函数迫近问题,而非强化学习的问题。咱们仿佛还没有找到解决烦扰项问题的办法。
Natasha Jaques:可能须要更多基于符号的表示法来实现泛化,以便像卡车和草堆这样的物体可能被地了解。咱们不能仅仅依赖演绎式的深度学习,例如只依赖训练数据集中的卡车示例来辨认卡车,因为这种办法在面对超出训练数据范畴的卡车时将生效。
将语言模型集成到强化学习智能体中很有发展潜力,因为语言是组合性的,或者能够提供组合表示法(compositional representation),从而有助于更好地进行泛化。用语言提醒生成真切图像就证实了组合表示法的潜在劣势。
3
基于 token 级别的强化学习
Robin Chauhan:你之前在该畛域做过相似的工作,在 token 级别上进行强化学习,将每个 token 视为一个独立的动作(action),并应用“Sequence Tutor”和“Side Learning”等办法。
Natasha Jaques:没错。如果你深刻开掘一下就会发现 InstructGPT 也是如此。应用策略梯度(policy gradient)的办法更容易,通过计算每个 token 的概率并对其进行求和,就能够取得整个序列的概率。然而,无论应用哪种办法,最终都是通过减少或缩小 token 级别(token level)的概率来传递模型中的损失。
Robin Chauhan:你的论文中将它形容为一种“bandit 算法”。在我看来,这可能会给人一种错觉,认为所有的 tokens 是一个整体动作(one action)。但你的认识是,其组织形式仍容许咱们独自剖析每个 token 的概率。
Natasha Jaques:你能够应用以下公式计算整个序列的处分:每个单词的处分相加,再乘以整个输入的概率。然而,在实际操作中,失去整个序列概率的办法是将 token 级别的概率相加。因而,影响模型的办法实际上是通过批改 token 级别的概率来实现的。
Robin Chauhan:那这是否意味着在 token 级别上进行剖析没有任何益处?因为我记得 John 说过,将数据集作为一个整体进行剖析更易于解决。
Natasha Jaques:他们采纳了一种不同于 token 级别强化学习的办法。他们将贴现因子(discount factor)设为 1,并没有对序列中的所有 token 利用的雷同处分进行贴现解决,也就是说,序列开端收到的处分与序列结尾收到的处分具备雷同的价值。这种办法成果还不错。
如果我没记错的话,咱们进行过这样的试验:尝试在序列级别和整个对话级别上进行处分设计,比如说处分对话的持续时间,这波及到多个对话回合。
此外,咱们还对句子中的 token 进行均匀分布,施行了在句子级别的处分设计。然而,在波及对话长度的问题上,咱们依然采纳了贴现因子(discount factor)。这是因为无奈确定对话会继续多久,因而须要对这些处分进行贴现解决。不过对话的工夫够长,处分就会相应进步。尽管如此,优化对话中的贴现处分(discounted reward)还是相当艰难。
4
AGI 与 AI 具身化
Robin Chauhan:你认为以后探讨和思考通用人工智能(AGI)是否有必要,还是说这只是一个边远的幻想,不值一提?
Natasha Jaques:当议论通用人工智能(AGI)时,我感到有些丧气,因为人们通常并不分明本人正在议论什么。
AGI 的定义并不清晰,试图廓清其含意又会导致循环论证。比方,有人可能会通知我 AGI 将在五年内问世,但如果我问他们为何主动驾驶汽车公司的 CEO 认为推出全自动驾驶汽车须要 20 年时,就会呈现自圆其说的状况。
在我看来,AGI 能够实现人类所能实现的所有,甚至比人类更杰出,但如果它不能驾驶汽车,那就不能被视作 AGI。只管有些人认为 AGI 不须要具备任何具体的物理状态,但这意义何在呢?
撇开这些争执不谈,我的确对人工智能倒退的速度感到十分诧异,甚至有些担心。如果咱们将 AGI 定义为具备高度颠覆性和疾速倒退的人工智能技术,咱们曾经达到了这个阶段。以 ChatGPT 为例,当初大学不得不从新设计他们的写作课程,因为当初 ChatGPT 写进去的文章比局部本科生写得还要好。
Robin Chauhan:的确,AGI 并不能代替所有工作,但像 ChatGPT 这样无疑具备微小的发展前景,这也是我所见过的第一个真正实现通用性的技术。此外,你提到的主动驾驶汽车也是一个很好的例子。只管许多人过来预测齐全主动驾驶汽车将在两到三年内推出,但理论推出工夫却一再被推延。
Natasha Jaques:在短时间内推出全自动驾驶汽车的确很艰难,从 Andrej Karpathy 提到的特斯拉事变就可看出。因为特斯拉主动驾驶零碎不能感知一辆半挂车上装载另一个半挂车的状况,所以事变就产生了。简而言之,一辆车上装载了一辆半挂车,而前面这辆半挂车上又装载着另一辆半挂车,最终就造成了“堆砌”。
这些事变产生的起因是,特斯拉主动驾驶零碎无奈感知训练数据之外的状况。咱们晓得,如果模型超出了训练数据的反对范畴,它们的性能通常会降落。那么如何能力创立一个数据集,可能蕴含事实世界中可能产生的所有状况呢?实际上这是不可能的,因为世界始终在变动,新的事物也在不断涌现。
我始终在钻研如何通过反抗环境设计或者无监督环境设计的办法来训练强化学习智能体。在这些办法中,咱们能够找到可能导致模型失败的问题,并针对性地进行训练。相比仅仅依附无限数据集的监督学习办法,这些新的办法更具可行性。
Robin Chauhan:你提及的 AI 具身化(embodiment)依然存在许多问题。但 ChatGPT 所展现的是,如果咱们可能在形象的文本世界中自在地创作和表白,问题就能迎刃而解了。
Natasha Jaques:对我来说,最吸引我的是具身化智能体,它能够在了解语言的同时做具身化,就拿 AGI 来说,如果咱们要对它下定义,不仅要能了解文本,同时还要了解文本对世界的映射形式,只有这样咱们能力对事件进行残缺概括。有一个能在雷同网络中编码所有货色的智能体是一件很不错的事。
Robin Chauhan:利用现有技术,咱们的能力失去了极大晋升,能够实现许多以前无奈实现的事件。已经咱们次要关注的是文本、抽象思维、代码以及形象符号等,但事实表明,机器人和动物智能(animal intelligence)才是真正难做的货色,相比之下,人类独有的抽象思维反而更容易实现。咱们当初曾经达成了之前认为遥不可及的指标,ChatGPT 让咱们看到了机器人身上不足的通用性。
Natasha Jaques:我记得有这样一种说法,对人类来说很难的流动(例如国际象棋和围棋),AI 却可能轻松应答。对于 AI 来说,一些低水平的操纵流动(比方用手从地上捡起货色)才是真正挑战。
我想分享一件趣事,这件事能够较好地阐明为什么具身化如此艰难。我始终在钻研语言条件强化学习智能体(language conditioned RL agents),旨在通过自然语言的领导,让机器实现理论事务。
过后我读了一篇 DeepMind 的论文,论文次要内容是模拟交互式智能,发明出一种模仿世界,在这个世界里,机器人能够随便走动,这个世界就像是低分辨率的视频游戏一样,机器人失去指令当前,能够做一些事件,比方拿起橘子把它放在床上,或者拿起杯子把它放在桌子上等等。
这个 30 人的钻研团队在这个我的项目上花了两年工夫,投入了数百万美元。他们收集了大量人类数据,并尝试在模仿环境中利用这些数据。因为收集的数据量过于宏大,所以其中可能有半数都是反复数据。而他们则基于这些数据去训练机器人。最初你猜他们胜利执行指令的机率是 50%。
我认为这个比例比拟低。只管“将橘子放到床上”等指令看似简略,但思考到我的项目团队曾经投入了大量资金,他们应该可能获得更高的成功率。这也表明了具身化工作的挑战性,即便咱们曾经胜利实现了文本到图像的无效联合,文本到图像的组合生成模型也实现了良好运行,然而物理实体的操作却难以管制,让它们在接管视觉和文本信息的根底上实现简略工作的难度也十分大。
5
回归学界:钻研社交强化学习
Robin Chauhan:我据说你打算回到学术界,负责华盛顿大学的助理传授。你打算钻研什么?
Natasha Jaques:我曾经有一个清晰的想法。在企业招聘时,如果你不能清晰地形容你的打算,他们就不会雇用你。我想做的是社交强化学习,即:当在多智能体环境中进行学习时,咱们能够在哪些方面晋升 AI 的性能。目前大多数 AI 流动都须要人类参加,而人类十分聪慧,有多种形式来实现工作。
因而,咱们不仅要思考如何使 AI 灵便地向人类学习,还要思考人类在社交学习方面的技能,即如何确认哪些模型值得学习,以及何时应该依赖向别人学习而不是独立摸索。我想开发的是可能与人类交互并且有用的 AI。
这就要解决以下问题,例如:如何与一个从未见过的人单干解决工作?如何了解人类想要解决的指标?如何从人类反馈(包含隐式反馈)中进行学习?如何应用自然语言与人类交换以解决工作?如何应用人类反馈训练语言?这些都是我始终在钻研的语言条件下的强化学习。
Robin Chauhan:在业内当先实验室工作后再回到学术界是一个很乏味的抉择,我敢打赌,很多人会做出相同的抉择,特地是思考到在学术估算无限的状况下,做顶尖 AI 钻研是一个很大的挑战,因为规模化对于 AI 来说非常重要,但规模化扩大又非常低廉。
Natasha Jaques:有人可能会认为,如果想要为 AI 做出奉献,就须要微小的计算估算和训练大型模型,而学术界怎么可能承当得起这个老本?但实际上,业界常有 30-50 人组成的团队在致力于钻研那些曾经被证实可行的想法,所以钻研人员能够退出其中,将其扩大成大规模我的项目。比方谷歌的一些大型团队就正在尝试发展 RLHF 我的项目。他们的做法与 OpenAI 都大同小异,都在尝试扩大编写本人的基础设施。
OpenAI 和 DeepMind 当初越来越重视规模化扩大,而非仅仅公布研究成果。如果你想要从事创新性的、摸索新想法的钻研方向,并通过试验确认这些想法,那么在业界可能会有更多的挑战。
我比拟关注的是钻研自由度和可能独立思考并试验的能力。学术界的作用在于提出新的钻研思路,并进行概念验证,而工业界则负责将这些思路转化为实用的零碎。
以我从事 KL 管制为例,学术界的探索性工作就对工业界的技术倒退起到了踊跃的推动作用。所以起决定作用的是看集体喜爱做什么,退出基础设施工作团队还是做更多钻研。就我集体而言,我更喜爱从事更具备钻研性质的工作。
Robin Chauhan:你对 AI 的奉献曾经失去学术界的认可,但公众却鲜为人知。人们只看到 OpenAI 获得的成就,却不晓得它也是站在前人的肩膀上才取得的。
Natasha Jaques:现状的确如此。不过我的指标是实际本人的想法并验证是否可行,进而为 AI 的倒退作出贡献,而不只是谋求荣誉。
相干论文
- Way Off-Policy Batch Deep Reinforcement Learning of Implicit Human Preferences in Dialog(https://arxiv.org/abs/1907.00456)
- Sequence Tutor: Conservative Fine-Tuning of Sequence Generation Models with KL-control(https://arxiv.org/abs/1611.02796)
- PsiPhi-Learning: Reinforcement Learning with Demonstrations using Successor Features and Inverse Temporal Difference Learning(https://arxiv.org/abs/2102.12)
- Basis for Intentions: Efficient Inverse Reinforcement Learning using Past Experience(https://arxiv.org/abs/2208.04919)
- Fine-Tuning Language Models from Human Preferences(https://arxiv.org/abs/1909.08593), Daniel M. Ziegler et al 2019
- Learning to summarize from human feedback(https://arxiv.org/abs/2009.01325), Nisan Stiennon et al 2020
- Training language models to follow instructions with human feedback(https://arxiv.org/abs/2203.02155), Long Ouyang et al 2022
欢送 Star、试用 OneFlow 最新版本:https://github.com/Oneflow-Inc/oneflow/