关于人工智能:为什么ChatGPT用强化学习而非监督学习

29次阅读

共计 5487 个字符,预计需要花费 14 分钟才能阅读完成。

为什么 ChatGPT 非得用强化学习,而不间接用监督学习?起因不是那么不言而喻。在上周公布的《John Schulman:通往 TruthGPT 之路》一文中,OpenAI 联结创始人、ChatGPT 次要负责人 John Schulman 分享了 OpenAI 在人类反馈的强化学习(RLHF)方面的停顿,剖析了监督学习和强化学习各自存在的挑战。

基于 Schulman 的演讲内容,以色列巴伊兰大学教授 Yoav Goldberg 对强化学习在大型语言模型利用必要性作了深度解读,进一步比照论证了监督学习与强化学习的特点,并为将来改良提供了思路。

Goldberg 在 2011 年取得本古里安大学博士学位,他也是艾伦人工智能研究所以色列分部的钻研主管,他也曾在 Google(纽约)研究院负责钻研科学家。他在 NLP 畛域深耕十多年,在词汇语义学、句法分析及对基于深度学习的语言解决等畛域作出了突出贡献。

(以下内容由 OneFlow 编译公布,转载请分割 OneFlow 取得受权。起源:https://gist.github.com/yoavg/6bff0fecd65950898eba1bb321cfbd81)

作者|Yoav Goldberg
OneFlow 编译
翻译|贾川、徐佳渝、杨婷

1

为何应用强化学习?

随着 ChatGPT 等大型语言模型的公布,人们对“RLHF 训练(即基于人类反馈的强化学习训练)”的重要性进行了诸多探讨。在训练语言模型方面,我一度困惑于为什么强化学习比从演示中学习(也称为监督学习)更好,难道从演示中学习(或依据语言模型术语中的“指令微调”,学习模拟人类写的答复)还不够?

我提出了一个有说服力的实践论据。不过我意识到还有另一个论点,它不仅反对强化学习训练,而且尤其实用于 ChatGPT 等模型。OpenAI 的 John Schulman 在其演讲的前半部分进行了具体阐述。本文的大部分内容都援用了 John 的论点,但减少了一些他没有明确表述的内容(不过我确信这些内容都是 John 思考过的)。

本文提供了大量背景常识,以确保读者能够更好地了解文章内容。如果你想理解文章重点,能够间接看“外围论证”局部。

2

背景:监督学习 vs 强化学习

简要地解释一下这两种学习场景,以便咱们可能达成共识。如果你曾经理解了这些内容,能够跳过此局部。

预训练:在这两种设置中,首先咱们假如语言模型在大量的文本上进行预训练,以预测下一个 token。因而,对于每个词序列,咱们有一个模型可对潜在的下一个词的选项调配概率。通过这种形式,模型会取得语言的某种外部示意。

通过这一过程,模型的生成文本能力会变强,且可能依据给定文本前缀,生成合乎天然习惯的后续文本,但它并不善于“交换”。例如,当提醒(prompted)一个问题时,模型可能会答复该问题或者生成一系列附加问题,也可能会答复这是一个在 …… 的上下文中提出的重要问题等等。

这些都是遵循自然语言文本问题的无效连续(continuation)。咱们能够通过编写输出文本,来使模型执行咱们所心愿的语言行为,该连续会解决咱们的问题(也被称之为“提醒工程”),然而对于只想提出问题或指令就让模型进行答复的非专家用户来说,这种交互模式并不十分不便。

如果咱们心愿模型可能继续答复查问而不是仅仅实现以后指令,就须要对其进行疏导,这个过程称之为“微调”,即持续训练预训练模型,进而使其体现出咱们想要的行为(有些人称这是“对齐”模型与使用者冀望行为)。

监督训练 :在监督学习中(也称为从演示中学习或“指令微调”),咱们会收集一组人类编写的文本,这些文本以问题或指令的模式呈现,并蕴含了冀望的输入。例如,这些文本能够是某一问题和答案,或者是像带有人类编写总结的 summarize the following text {text} 这样的工作。

通过在雷同的“给定前缀预测下一个 token”的指标上持续训练模型,但这次是在指令 - 输入对汇合上,模型学会通过执行指令来响应。即模型接管到给定问题的正确输入的演示,并学会复制输入后果。咱们心愿通过这种形式将其泛化到训练中尚未呈现的问题中去。

强化学习(RL):在强化学习中,咱们为模型提供指令,但并不提供人工编写的答案。模型须要本人生成答案。评分机制(例如人类)会读取生成的答案,并通知模型这些答案的品质。模型的指标是如何答复以取得高分。

另一种机制是模型生成多个答案,评分机制通知模型哪个答案最好。模型的指标是学习生成高分的答案,而不是低分的答案。在这两种状况下,模型通过生成答案并接管反馈来学习。(留神:许多钻研人员将强化学习的范畴限定在基于 credit 分配机制的某些技术层面。于他们而言,“咱们是否须要强化学习”的问题兴许归结为咱们应该应用该技术还是采取其余相干技术来代替。我与他们同样好奇,但就本文目标而言,我认为任何应用内部评分函数的办法均可视为强化学习,无论其运行机制如何。)

强化学习比监督训练难得多,起因如下:首先是“credit 调配”问题。语言模型生成一段 token 序列,且仅在序列开端能力取得一个分数。因为信号很弱,咱们不能确定答案哪些局部是良好的,哪些局部是蹩脚的。许多无关强化学习的相干技术钻研都在尝试解决该问题,但在本文中咱们先不谈这个问题。

credit 调配问题是一个沉闷的钻研畛域,但曾经存在正当的解决方案。其次,咱们须要一种评分机制来对答案进行评分(或为答案评分或比拟两个答案),而在基于语言的工作中,很难生成主动评分机制(只管这可能正在扭转,下文会简略阐述)。

因而,咱们会在强化学习的每一步留下“人类反馈”,但这种形式老本昂扬且效率低下,思考到每个人类反馈只能给出一个相当稠密的信号,问题会更加蹩脚。基于以上艰难,咱们为什么还要应用强化学习呢?为什么不仅仅抉择监督学习呢?

3

多样性论证

对于语言生成模型来说,监督学习 / 指令调优最大的问题是它们只能复制演示者给出的确切答案,但实际上,人类语言能够用多种形式传递雷同的信息,它们都是切实可行的。如果因模型轻微偏离人类规定的文本而受到“惩办”,可能会使模型产生困惑。

咱们当然能够持续逼迫模型去学习更难学习的遣词造句,只管模型曾经学会了生成具备同样意思、非法的替代性答复。因而,咱们十分看好强化学习训练提供的多样性表白。思考到监督学习在实践中的良好利用,以及训练强化学习模型所面临的挑战,这是一个十分直观的论点,但不够有说服力。始终以来,我并不认为这是一个足够外围的问题,当初我仍这样想。

4

实践论证

监督学习只容许正反馈(咱们向模型展现一系列问题及其正确答案),而 RL 容许负反馈(模型被容许生成答案并失去反馈说“这答案是不正确的”),这是我提出的第一个对于 LLM 畛域的监督学习 vs 强化学习的强有力论点。

从严格的学习实践的角度来看,两者之间有很大的区别:相比正反馈,负反馈要弱小得多。从实践论证的角度,当模型只从演示中学习时,反抗型(或大意的)演示者(demonstrator)能够瞒哄重要例子,从而误导学习者(learner)学习谬误的假如。

演示者管制着整个学习过程,但如果学习者可能造成本人的假如,并询问老师(teacher)假如是否正确(例如强化学习设置),通过这种形式,即便是对抗性老师也无奈再坑骗学习者学习谬误假如,它必须如实告知这一假如是谬误的,这种形式赋予了学习者主动性,让学习者更加弱小。(当然,前提是反抗型或大意的老师依然遵守规则,始终提供实在答案。这是实践框架中的正当假如,这一假如并不影响咱们的主体观点:从互动或发问中学习比从演示中学习更加弱小)。

这是咱们抉择强化学习的局部起因,但就通过发问训练大型语言模型交换方面,还有一个更加重要的额定论点。

5

外围论证

以下是咱们须要强化学习或相似技术的外围起因。前两个论点依赖于假如,例如 ” 模型可能更难学习 ” 或 ” 大意的演示者可能会混同模型 ”,这些假如在实践中是否成立是未知的,
相同,上面的论点能够被证实是成立的。

语言模型(至多)有三种交互模式:(a)文本型(text-grounded):为模型提供文本和阐明(“总结此文本”,“基于此文本,以色列的人口是多少”,“本文中提到的化学名称是什么”,“将此文本翻译成西班牙语”等),让模型基于咱们提供的文本生成答案;(b)求知型(knowledge-seeking):向模型提供问题或领导,让模型依据外在常识(“流感的常见起因是什么”)提供(实在)答复。(c)创造型(creative):为模型提供问题或阐明,而后让模型进行创造性输入。(“写一个对于 … 的故事”)

咱们的论点是基于第二种交互模式(求知型查问),心愿在这种查问中失去实在(自信)的答案,咱们心愿模型在对答案没把握的状况下可能如实答复“我不晓得”或回绝答复这一问题。

对于这类交互模式,因为监督训练可能会让模型扯谎,所以咱们必须应用 RL。外围问题是:咱们心愿模型依据外部常识进行答复,但咱们并不知道模型外部常识蕴含的内容。

在监督训练中,咱们给模型提供问题及正确答案,并训练模型复制提供的答案。这里有两种状况:(1)模型“晓得”答案。这种状况下,监督学习可能正确推动模型将答案与问题相干连,并且无望让模型执行类似的步骤,答复未来遇到的相似问题。这是所冀望的行为。(2)模型不晓得答案。在这种状况下,监督训练还是会促使模型给出答案。

当初,咱们有两种抉择。一种可能是,它会促使模型记住特定的问答对。这种做法自身并没什么害处,但不太高效,因为咱们的目标是让模型具备泛化能力,并且能答复任何问题,而不只是那些在训练数据中呈现的问题。但如果咱们使模型在这些状况下能做到泛化,那么实际上就是在教模型捏造答案,相当于激励模型“说谎”,这很不好。

因为咱们无奈确定模型晓得哪些信息或不晓得哪些信息,所以无奈防止第二种状况,这对监督训练来说是一个实在且重大的问题。

咱们不能仅依附监督学习来训练模型生成可信赖答复,还须要强化学习的加持。与监督学习不同,强化学习不会激励模型假造答案:即便模型最后的确猜对了一些答案并谬误地学习了“假造”行为,但久远来看,模型会因假造答案的得分较低(很可能是不正确的)而学会依赖外部常识或抉择放弃答复。

6

教诲模型放弃答复

当模型不晓得答案时,咱们心愿它可能放弃答复并给出“我不晓得”或相似的答案。但因为咱们不晓得模型是否晓得答案,所以这并不是一件容易的事,在监督环境中很难做到。咱们能够疏导模型躲避某些类型的问题(例如“从不答复波及人类的问题”),并答复“我不晓得”。但这不是在答案未知时放弃答复的预期行为,只是一个十分单薄的代替办法(proxy)。

然而,这对于强化学习设置也具备挑战:模型可能从一开始就不会生成“我不晓得”的答案,因而咱们无奈激励它作出这种答复。解决这个问题的办法之一是,先进行一些监督训练,学习在某些状况下生成“我不晓得”的答案,而后再进行强化学习训练。

但这种办法也有弊病,即在监督学习和强化学习中,模型可能会适度答复“我不晓得”。这是一个凋谢的钻研问题,能够尝试通过“定制处分函数”来解决:将正确答案赋予十分高的分数,放弃答复的答案赋予中低分数,不正确的答案赋予强烈负分。当然,想做到这一点也并非易事。

7

模型窃取 / 蒸馏的影响

OpenAI 在 GPT 模型的强化学习类型调优(RL-type tuning)方面投入了大量精力。起因有很多,他们的局部动机是心愿通过激励模型在不晓得答案时放弃答复来确保准确性和真实性。

最近有一种趋势,即采纳其余公开可用的根底语言模型,并对它们进行训练,以期可能复制 GPT 模型的杰出行为。

这种做法相似于监督式训练或指令调优:通过训练,模型能够精确生成 GPT 模型的答案。这对于教模型执行指令应该很无效,但却不适用于答复常识查问类问题(案例 b)。

公开可用的根底模型和 OpenAI 模型可能具备不同的常识集,因而训练模型以复制 GPT 的答案可能会面临与监督学习同样的问题,即激励模型假造事实,或在它晓得正确答案但 GPT 模型不晓得的状况下放弃答复。那么,解决方案是用强化学习对这些模型进行训练,但这是否太过低廉?

8

无人类反馈的强化学习

长期以来,应用强化学习训练生成语言工作对大多数玩家来说都不切实际:因为不足牢靠的主动评分指标,强化学习训练须要对每个训练样本进行人工反馈。这既耗时又低廉,特地是对于须要查看数千到数万甚至数十万个示例能力学习的模型。

然而,强化学习训练当初变得实用了:首先,呈现了能够从较少示例中学习的大型预训练语言模型。更重要的是,这些模型为强化学习循环(RL loop)中去掉人类参加铺平了路线。

监督训练对于文本相干的工作十分无效,而且大型模型能够很好地学习执行一些工作。例如,让模型确定两个文本是否意思雷同,或者一个文本是否蕴含另一个文本中没有的事实(还能够将工作合成,让模型“生成所有可从该文本答复的所有 ’ 问答对 ’”,而后针对每个问题询问“在其余文本中是否有该问题的答案,答案是什么”)。

依据教训来看,大型语言模型(甚至中型语言模型)能够应用监督学习牢靠地学习执行这些工作,这为咱们提供了可用于强化学习设置的无效主动评分机制。

咱们能够应用人类提供的指令 - 响应对进行训练,不过,要让模型生成本人的响应,而不是间接复制人类响应,而后用在监督形式下进行训练的专用文本比照模型(text comparison model)将模型生成的响应与人类提供的响应进行比拟,这样就取得了一种主动打分的方法。

欢送 Star、试用 OneFlow 最新版本:https://github.com/Oneflow-Inc/oneflow/

正文完
 0