共计 11532 个字符,预计需要花费 29 分钟才能阅读完成。
OneFlow 编译
翻译|贾川、徐佳渝、杨婷
大型语言模型(LLM)有一个家喻户晓的“硬伤”——它们常常会不苟言笑假造貌似实在的内容。
OpenAI 团队心愿通过改良强化学习反馈步骤“原生地”阻止神经网络产生幻觉,OpenAI 首席科学家 Ilya Sutskever对此胸有成竹。作为 ChatGPT 我的项目的次要负责人以及 OpenAI 强化学习团队的领导者,John Schulman 在最近的 Berkeley EECS 会议上系统性地分享了 OpenAI 在人类反馈的强化学习(RLHF)方面所做的工作,以及语言模型的幻觉等亟待解决的问题,同时也介绍了解决这些挑战的潜在思路。
没有比 Schulman 更权威的 RLHF 研究者,他也是强化学习畛域半信半疑的大牛。
退出 OpenAI 之前,Schulman 在加州大学伯克利分校攻读博士学位,一开始次要钻研机器人技术,随着深度学习衰亡,转而钻研强化学习,其导师正是强化学习畛域的领军人物 Pieter Abbeel。
Schulman 在强化学习钻研畛域作出了许多重大贡献,包含创造了 TRPO 算法(信赖域策略优化)、GAE(狭义劣势预计,Generalized Advantage Estimation)以及 PPO 算法(近端策略优化)。
现在,Schulman 还在强化学习钻研的最火线尝试解决公认难题,他的最新思考或者会为业内其余研究者带来启发。
(以下内容由 OneFlow 编译公布,转载请分割 OneFlow 取得受权。起源:https://www.youtube.com/watch?v=hhiLw5Q_UFg)
1
语言模型幻觉溯源
提到语言模型,很多人应该听过“幻觉”这个名词。上图就是一个对于幻觉的例子,这不是精挑细选的,而是我做测试时的第一个样本。
我的问题是:请通知我 John Schulman 因在家豢养野生动物而被捕的相干状况。GPT-3.5 Instruct 是通过强化学习训练过的模型,给出的答复是对于 John Schulman 豢养老虎和小型美洲猫之类的事件。GPT-3.5 Turbo(Chat)的整体体现与 GPT-3.5 Instruct 统一,且智能水平雷同,只是微调形式不同,它给出的答复是:道歉,我没有查到任何对于 John Schulman 被捕的相干状况。
而后,我又尝试对聊天性能进行微调过的 GPT-4(Chat),它的答复是:很道歉,我没有找到无关 John Schulman 因在家中豢养野生动物而被捕的任何信息,我的常识截止于 2021 年 9 月。John Schulman 是人工智能畛域的驰名钻研人员……
这是“幻觉”问题的一个很好示例。相比之下,我感觉 GPT- 4 的体现相当不错。
当人们说幻觉时,次要指的是两类不同状况。其中一类幻觉是语言模型的模式实现(pattern completion)行为。它们的训练目标是最大化文本可能性,使生成的内容看起来很像互联网上的文本。
这次要有三个起因:1. 它不晓得本人能够答复“我不晓得”或者表白不确定性。如果通知模型能够答复“我不晓得”,那么在肯定水平上能解决幻觉问题;2. 模型有时不违心去质疑前提(premise),它认为前提是数据分布的一部分;3. 模型有时会陷入谎话之中。如果模型曾经犯了一个谬误,那么它会认为本人应该持续答复上来,生成一连串响应,这也意味着它会持续说谎。
语言模型的另一类幻觉是“猜错了”。就像人类一样,你可能只遇到过一次某件事情,本人不能确定,感到很含糊,所以在答复时必须带点猜想,有时可能就会猜错。
比方很多人喜爱问模型对于本人的问题,就像用谷歌搜寻本人一样,所以我也尝试让模型写一篇集体介绍。
InstructGPT 答复,“John 是一位 AI 钻研科学家,在 OpenAI 工作。他曾是卡内基梅隆大学的计算机科学传授等等。”此外还减少了一堆虚构的货色。GPT-3.5 的答复有点含糊,但基本上正确,它说我本科就读于斯坦福大学,在 Pieter Abbeel 的领导下做钻研,还提到了信赖域策略优化(TRPO)方面的内容。GPT- 4 的答复简直完全正确,但也有些许瑕疵,比方它说我主修数学,其实并没有,对我获得本科学位的年份形容也有一年的误差。
这其实就属于“猜错了”:模型尝试给出一个全面的答案,但后果却呈现了谬误。这样的后果是好是坏在肯定水平上取决于这份个人简介的用处:如果想将其放在网上,那么必定存在问题;但如果仅仅是某人想要理解我,那么年份误差一年也不会有太大影响。
2
幻觉与行为克隆
到底为什么会产生“幻觉”?我将形容一个概念模型加以解释。上图是一个常识图谱,蕴含一些事实,比方《星球大战》属于科幻类,Han Solo 是《星球大战》中的一个角色,以三元组模式排列。这只管是传统人工智能的常识贮存形式,依然很有用。
该概念模型能解释当你对神经网络进行微调以实现某种问答工作时会产生什么。神经网络中蕴含信息,能够将其看作相似常识图谱的货色,以某种非常复杂的形式存储在权重中。每条边(edge)都有一些置信度,不同的边置信度不一样,起因是,某些事实被看了上百万次,而有些事实可能只看了一两次。
当你进行小规模微调时,能够将其看作你正在学习某个小型程序,将常识图谱作为输出,并基于常识图谱中的内容和语句的置信度输入概率。比方,你正在学习解决常识图表的四行 Python 代码函数,那么你之所以要进行微调,是因为可能须要学习一些对于问题格局的内容。
如果只抛给预训练模型一个问题,如“《星球大战》属于什么类型?”,那么它就不晓得该问题的上下文是什么,不分明这些文本的起源是哪里,是信息性网站、恶作剧网站还是虚构文本。而微调就是让模型专门输入正确的答案或在微调数据集中的内容。
行为克隆(behavior cloning)是强化学习畛域的一个术语,意思是监督微调或最大化似然(maximizing likelihood),其目标是实现给定 prompt 的最大化似然或最大化对数概率。
如果用行为克隆来训练模型,比方应用人类编写的正确答案或应用 ChatGPT 的输入进行训练,那么即应用 100 个正确的答案进行克隆,因为模型不足所有相干的事实,依然是在教会模型产生幻觉。例如,如果训练模型答复无关 Han Solo 的相干问题,但知识库截止日期是 5 年前,因而模型不晓得有一部围绕 Solo 的衍生电影。这种状况下,你实际上不是在训练模型输入正确答案,而是在训练它在这种问题上进行猜想。
如果你应用行为克隆来训练模型,那么无奈避免出现幻觉问题,同时也会呈现相同的问题,即如果你想训练模型在某些状况下答复“我不晓得”,那么它可能会瞒哄实际上曾经晓得的信息。例如,如果标注者不晓得答案,他们可能会将“我不晓得”列为指标答案,但实际上网络可能曾经有了答案,你只是在训练模型瞒哄信息。
因而,行为克隆或监督学习的问题在于:正确的指标实际上取决于神经网络中蕴含了哪些常识,而这对于收集数据或进行试验的人来说是未知的。因而,除非你有一种办法来查看模型中的内容,否则无奈应用行为克隆训练出真实可信的模型。
当初有了一些稍微不同但比拟聪慧的办法,比方在数据标注时,让标注者询问模型问题并查看答案是否彼此统一。如果统一,则查看是否正确;如果正确,则作为指标答案;如果齐全不统一,则答复“我不晓得”;如果谬误,则同样答复“我不晓得”。这种做法的后果略微好一点,但操作过程更加艰难,而且很难实现自动化。总的来说,这仅实用于特定模型。
如果尝试用监督学习数据集来训练另一个模型,也会遇到同样的问题。例如,许多人正在应用 ChatGPT 的输入来微调开源根底语言模型。微调后,这些模型的体现很好。但如果认真查看事实准确性,你会发现它们存在一些问题,并且常常会假造信息。不过这只是我预测的后果,还有待试验证实。
3
语言模型晓得本人的不确定性吗?
咱们心愿模型在不晓得正确答案时能输入其常识的理论状态并表明不确定性,而不是进行猜想。那么模型是否晓得本人的不确定性呢?比方给定一个问题,模型分明本身是否晓得答案吗?
这个问题很难答复。什么是“晓得”?如果模型晓得某些货色,那么是否用一些简略的代码就能实现这个性能?例如,如果有代码能调用模型正确地执行你要做的事件,那么就认为模型晓得如何做这件事。
问题是,模型是否晓得本身的不确定性?答案是必定的。模型晓得本人什么时候晓得什么时候不晓得,因为模型被训练为最小化对数损失,为此它必须输入概率。模型的下一个 token 预测是通过校准的(calibrated),校准后的对数损失是一个适合的示意不确定性的指标。
预训练指标产生了一个校准的模型,它必然输入正当的概率,这意味着,模型晓得本身的不确定性,至多对于任何能够被转化为预测单个 token 的短答案的问题,它能够为该 token 给出一个正当的概率分布。如果模型可能为该 token 输入正当的概率分布,但无奈对其不确定性进行内省,那反而让人感到意外。
有几篇论文曾经钻研了这个问题,我在上图的底部做了援用。论文钻研表明:能够让模型用语言表达它们的不确定性,并给出与输入概率相似的后果。
我的观点是:模型的确晓得本人的不确定性,行为克隆无奈利用这一点来防止幻觉,强化学习才是解决这个问题邪道。
局部幻觉仅因为模型陷入想要“给出残缺答案”的模式或不晓得如何表白不确定性而产生,因而这类幻觉很好解决。比方可在训练模型时给出一些表明“我不晓得”、“我的常识截止于××日期”的示范,或者给出一些质疑用户发问的范例,这样模型至多可能表白不确定性,只是表白的机会可能不是那么失当。
4
如何用强化学习解决幻觉问题?
我认为,通过强化学习就能把握好这个界线,即在何时说“我不晓得”。当模型给出一个答案,如果是十分自信的正确答案,将失去高额处分;如果是含糊的(hedged)正确答案,将失去稍差的处分;如果是无信息的答案,例如“我不晓得”,将失去一些惩办;如果是含糊的谬误答案和齐全谬误的答案,将失去更多的惩办。这根本是一个适当的评分规定,可能激励模型给出自信的答案,如果它对谬误答案过于自信,就会给出相应惩办。
因而,这就是咱们想要达到的成果。但通过强化学习训练语言模型来实现这一指标并不容易,因为你须要晓得答案是否正确,但答案到底正确与否咱们无从晓得。
接下来我将探讨如何尽可能地靠近这一指标。
TriviaQA
实际上,我的共事做了一个简略而乏味的试验,尽管并未将其公开,但对我所形容的概念图提供了无力反对。
这个试验被设置为 TriviaQA 模式,TriviaQA 是一个风行的问答数据集,它蕴含了一系列常识问题,其格调相似于 Jeopardy(译者注:Jeopardy 是美国的一档问答游戏节目,玩家须要依据问题提供的信息推理出正确的答案,或者抉择他们认为正确的答案)。
咱们应用了一种根本的问答格局来疏导模型答复问题,如果你只在正确答案上进行行为克隆,那么模型对所有问题都会给一个答复,但往往会蕴含一些谬误答案。因为咱们从未通知它输入“我不晓得”这样的答案,若遇到不晓得的问题,它只能进行猜想而不会说“我不晓得”。
在对答案进行行为克隆时,只须要大量训练后模型就达到肯定的准确率和对数损失,但这种训练只是在教模型它应该试图输入正确答案,模型实际上没有从这种微调中学习很多新常识,学到的只是问题格局(the formatting of the questions)及其解决形式。
因而,咱们定义了一个强化学习问题,对正确答复、谬误答复及回绝答复给予相应处分。某种程度上,咱们能够通过解析计算来得出正确的处分行为,即谬误答案的惩办与正确答案的处分之间的差别。最优处分行为能够简略了解成确定某种阈值,譬如当列表中排在最前的选项有超过 50% 的概率时就答复,否则就不答复。
如果咱们将处分函数用于强化学习,模型就会学到最佳阈值行为,就像模型曾经理解最佳策略(波及对数概率和阈值)。因而,如果应用强化学习微调模型,就能够让它做同样的事件,即便它并没有真正查看到这些概率。
咱们训练了一个处分模型来预测该处分函数,而后应用处分模型而不是 oracle 模型进行强化学习。这种形式的成果很难评析,因为处分模型并不知道答案是否正确,但它实际上与咱们正在微调的策略模型晓得雷同的信息。就像我之前所形容的粗略图一样,它具备雷同的常识图谱,晓得这个答案的不确定性有多大。
咱们的假如是,训练处分模型并进行强化学习,也会学习正确的行为。不过这种形式的成果还是不如 oracle 模型。它为我形容的图景提供了证据反对,但还须要进行进一步钻研。
长篇答复设置
这里不再赘述绝对简略的单句答复(one word answers)的设置。更乏味的设置是长篇答复(long-form answer),ChatGPT 采取的就是该设置。对于事实性问题,我认为这与完全正确或谬误无关,而是各种答复都处于灰色区域,混合了正确和谬误的信息。单个事实(individual fact)无关对错,可能存在肯定的误导性,所以我随机抉择了这个长篇答复。
如果你问 ChatGPT 一个技术问题,可能会失去正确、谬误或具备误导性的答案。上图的问题是“InstructGPT 中处分模型训练的指标是什么”?其中它说,“InstructGPT 所依赖的处分模型训练都来自人类反馈”,这种说法不足真实性,且极具误导性,我想说这是齐全谬误的,但它也说,“通过收集的比照数据能够构建一个处分模型来预测答复的品质”的说法是正确的。不过,让标注者来判断答案是否有误往往行不通。
咱们没有完满的答案,而是须要让人们对答复进行排序,并说出哪个更好。人们必须依据谬误的重大水平来判断模型给出的答案,这在很大水平上取决于上下文。举一个编程的例子:模型写了 100 行代码,只有一个中央的参数写错了,这种状况下我宁愿让它给出这个答案,也不愿让它答复“不晓得”,因为我至多能够在其根底上运行和调试。然而在其余状况下,这种谬误可能是一个大问题。
ChatGPT 的长篇真实性评估
应用 RLHF 能够进步模型的准确性。尽管咱们没有在 ChatGPT 上进行过严格试验,但 GPT- 4 博客文章中有一些模型评估指标能够掂量准确性。评估的形式是为每个问题提供一个参考答案,并由人类查看,而后比拟模型生成的答案与参考答案之间的一致性。
咱们还应用了一些自动化程序来评估长篇答案并查看它们是否与参考答案统一。上图中的柱状图示意不同版本的 ChatGPT,随着数据越来越多,相应指标上都有所改善。GPT- 4 在这些准确性指标和定性测试上的体现要好得多。当然,尽管在剖析这些数据时还需更审慎一点,但咱们认为,这种办法能够进步模型的准确性。
出于各种因素,在理论状况中还存在多种问题。模型有时的确须要猜想,尤其是在输入大量具体事实的时候。无论你如何训练,模型都有概率在答复某些问题时进行猜想,这是不可避免的。
在面临有些问题时,模型会采取“避险措施”,不过这个度可能把握不好,从而作出谬误的判断。咱们基于排名的处分模型的训练形式是,预测输入一种相似于对数概率的值,表明某个答复比另一个更好,但它并没有真正阐明哪一个比另一个好多少,只是表明它对哪一个答复更有信念。
模型并没有就事实谬误的重大水平和谬误的含糊水平施以正确的惩办,因而我认为,基于排名的处分模型没有很好地解决这个问题。
此外,标注者的谬误必定也有很多。有时标注者没有足够的信息来做出正确的标注,人类无奈始终正确地进行排名,比方有些问题可能波及到用户计算机上的某些代码库,标注者就无法访问。咱们尝试让标注者跳过他们无法回答的问题,但也还有很多其余谬误。当然,在浏览长篇答案时,要捕捉到其中的每一个谬误是不可能的。
索引和援用
接下来谈谈检索和援用起源。在语言模型的背景下,检索通常是指语言模型拜访某些内部常识源(通常是一些文档集),并提取一些文原本答复问题。
有几个起因可能须要检索,比方想理解世界上正在产生的最新事件和一些不在预训练中的信息。不在预训练中的信息不仅包含最新材料,而且还可能是一些私人信息、计算机或代码库中的货色、模型输入答案和集体以前的对话等等。
检索和援用起源最须要关注的是可验证性,因为模型写的答案是否正确须要人类来查看,如果不晓得信息起源,须要查找所有信息,查看其正确性十分艰难。如果模型援用了起源,那查看起来更容易。如果将未增加援用的答案看作是未经证实的草图,那么增加援用就好比呈现出了证实过程。
WebGPT 的参考价值
在 ChatGPT 之前,咱们还做了一个 WebGPT 我的项目。该我的项目次要聚焦于细分问答,数据集基于 Reddit 下的一个板块 ELI5(Explained Like I’m Five,用五岁孩子的语言解释)。当人们在谷歌上查不到本人想要的答案时,就会在 ELI5 发问,比方“我用 MacBook 加入 Zoom 会议时呈现了某个问题”,或者“人们为什么举荐用苏打粉和醋来当清洁剂”。
咱们想构建一个能答复这类细分问题的零碎,先在网上搜寻整顿,再给出答案,最终创立出了能给出这类答案的 WebGPT 零碎。当你问“苏伊士运河在 2021 年 3 月时为什么被封闭”,零碎就会给出答案并列出所有的论据起源。
WebGPT 是 2021 年底的一个我的项目,相当于 GPT- 3 程度的模型。如果把问 WebGPT 的问题拿来问 GPT-3.5 或者 GPT-4,无需进行查找就能够完满地答复,但这种技术对于 GPT- 3 级别的模型来说十分有必要,即便对于 GPT- 4 也很有用,尤其对于更技术性的偏门话题。
WebGPT 的工作形式对于 GPT- 4 也有参考价值。咱们定义了一个口头空间或者畛域特定语言,模型能够用其来浏览起源。当搜寻时,模型会看到一些链接列表,就像搜寻页面一样,而后能够点击链接并援用内容。
不过,因为语言模型的上下文窗口无限,大概为 4000 个 token(每个 token 约为 1 个单词),所以查看的资料也无限,否则就会内存不足。
在这种状况下,援用十分重要,因为咱们只能简要地向模型展现这些页面,而后将其从上下文中移除。通过容许模型进行援用,咱们使其可能在其余浏览过程中保留信息。在模型实现任何必要的浏览操作后,它能够申明曾经实现并开始编写答案。
咱们定义了一个强化学习环境,让模型生成文原本定义一个畛域特定语言(DSL),而不是收回非凡操作(action)。强化学习工作的每次 episode 由模型浏览 20 到 100 步的,援用某些信息,编写答案,而后应用处分模型计算处分。整个过程都是在规范办法下实现。
以上是 RLHF 的流程图。首先是行为克隆,这属于监督学习局部。咱们应用专家演示(expert demonstrations)来展现如何执行工作,在本例中通过查看浏览器来编写答案,而后模拟这种行为。
其次,通过比拟两个残缺的答案(A 和 B)或两条轨迹来收集处分模型,由人类决定哪个更好。之后,咱们能够在该处分模型上执行强化学习,或者通过获取多个样本并从新排序来对其进行搜寻。
针对每个工作,须要为其制作 GUI(图形用户界面)。用于收集数据的 GUI 绝对简略(如上图所示),但处分建模的 GUI 比较复杂,须要让人们仔细阅读模型编写的答案,并标记其中有强反对和弱反对的语句。咱们具体定义了这个标记过程,以计算答案的事实准确性。只管这个过程有些繁琐,但最终咱们只失去一个二进制信息,即一个比特位的信息。咱们尝试利用其余信息,但成果并不现实。
那么 WebGPT 的成果怎么样?咱们发现,在给定查问的状况下,左侧的图表显示的是最优的 n 个后果。具体来说,咱们采集 n 个样本,应用处分模型对它们进行从新排序,并返回排名最高的后果。与此相比,咱们没有应用微调的办法,也没有应用强化学习进行训练,而是采纳了监督学习的策略。
咱们发现,对于 175B 的 GPT- 3 模型,在 64 个样本的状况下,模型体现得更好。模型的抉择正确的概率达到 55% 到 40% 不等,尽管连贯性稍有欠缺,但事实准确性更高。此外,模型给出的答案也比 Reddit 上的参考答案更受欢迎。
实际上,我并不齐全置信这个比照,模型有时会给出看起来十分明确的答案,并且还带有援用链接,但我认为标注者会偏差某一种格调的答案,这会让比照带有偏见。因而,我不认为上述模型给出的答案能好过 Reddit 上票数最高的答案,但如果用以后模型再跑一次,得出的答案可能会好一些。
ChatGPT 浏览模式
ChatGPT 有一个用于浏览的 browsing(alpha)模式。与 ChatGPT 的操作方法雷同,例如咱们能够发问“明天谁会在伯克利 EECS 座谈会上发表演讲?”,这是我明天早上提出的问题,它的问答是“明天的演讲人是 John Schulman……”调试窗口显示模型收到的一系列长串提醒阐明,比方“你有一个带有这些函数搜寻援用的浏览工具”,后附函数阐明文档。在生成的对话文档中,咱们能看到用户音讯、演讲者信息。
它在执行这些操作时会进行阐明,相当于是它的内心独白。如上图所示,它说“我将搜寻明天在伯克利的独家演讲者”,而后它收回了一个搜寻命令(“Berkeley EECS colloquium presenter today”recency, days = 1”),而后它会通知咱们点击第一个链接,以拜访伯克利座谈相干页面,在援用相干材料之后,它才会开始输入答案,呈现出最终浏览后果。
此外,当初还有其余内容能够浏览,且提供相似援用的产品。但 ChatGPT 的非凡之处在于,它只会在不晓得答案的状况下启用浏览模式,这与我后面提到的不确定性自我认知(self-knowledge of uncertainty)类似,它容许模型表白“我不晓得”,让模型在必要的时候进行浏览操作。
比方我提出一个问题:什么是 dagger 算法(一种典型的模拟学习算法)?针对这一问题,ChatGPT 在齐全没有启用浏览的状况下给出了具体答案,我看到答案中提到了一个名为 Fleet-DAGGER 的货色,于是我又问“什么是 Fleet-DAGGER?”因为模型不晓得答案,所以它开始进行搜寻,它查看了子网页(外面是残缺的档案文件),而后对浏览内容做了总结和改写(这里并不是简略的复制粘贴),最初在总结的根底上给出了答案。
5
开放式问题
表白不确定性
接下来我想聊聊在整个工作过程中遇到的开放式问题。第一个问题是:如何激励模型真正精确地用语言表达不确定性。这意味着咱们要应用适量的含糊陈说(hedging),并尽可能地解释模型的全副常识状态。在我看来,目前的处分模型并没有精确掂量答案之间的好坏差距,更像是掂量了答案好坏差距的信念(confidence)。
咱们以 A 超过 B 的似然最大化的指标去训练一个处分模型,其中 A 获胜的概率与处分分数差的指数成正比,相似于分类损失(classification loss),它不会因过于自信的谬误(extra confident errors)而惩办模型,也不会思考含糊陈说等方面的问题,在我看来,这可能会对模型产生影响,模型会认为未含糊陈说的谬误答案比含糊陈说的答案更蹩脚。
然而,我不认为咱们的评分形式完全正确,如果你想用适当的评分函数来对模型进行训练,这也会遇到一些问题,咱们难以让模型输入所有内容的概率,因为自然语言并不准确,尽管这正是自然语言弱小的起因,但因为句子的模糊性概率,同一个句子可能会有不同的了解,会存在许多可能的解释,有的概率高,有些概率低,咱们很难对这一概率进行正确判断。
对于上述问题,兴许咱们能够在自然语言语句旁增加一些正式的概率申明,但我还不晓得具体应该怎么做,或者咱们应该建设某种指标(objective),它能够让多个智能体相互协作,这些智能体可能正确表白不确定性,因为不确定性能在后续帮忙其余智能体或这一智能体自身。
超过标注者
另一个凋谢问题是,咱们该如何超过标注者可能轻松实现的事件。查看技术或小众主题的长篇答案其实十分艰难,对于这个问题,咱们有一个个别钻研畛域:对齐方面的可扩大监督(scalable oversight)。通常,验证某一解决方案是否正确要比生成正确的解决方案容易,这是实践计算机科学的最根本思维之一。
拿 P vs NP 问题来说,一种解释是:让弱智能体为强智能体提供激励,通过这种形式,最优行为能够解决弱智能体无奈解决的问题。咱们能够让标注者训练模型,让模型实现标注者无奈做到的事,实践上这是可行的。
在这个方向上,咱们可做的事件有很多,比方能够尝试对工作进行合成并委派,让浏览模型对每个句子做事实核查,而后主动聚合所有后果。咱们还能够进行相似于设置激励机制的设计,比方能够设置一种游戏,在游戏中让智能体们去竞争验证器的批准,并查看其余抉择的谬误起因,AI safety via Debate 是一个很好的例子。
基本上,这个方向的钻研还处于起步阶段,没有呈现较好的理论使用,但这方面的利用已逐步成为必要,因为标注者开始难以跟上模型的倒退速度。
生成常识
最初一个问题是:RLHF 是纯正基于人类认可的优化,但问题是人类并不能把握所有事件的正确答案。很多时候,咱们只是在对听起来有说服力、听起来正确的内容进行优化,心愿当前能基于客观事实进行优化,减少更多算力,在模型训练上投入更多精力,尽可能地靠近事实真相。
那咱们应该怎么做?一个办法是,如果咱们理解某种根本真谛,那能够优化理论正确性。就预测将来而言,将来有数百万种可能,如果咱们将这些预测用作处分函数,兴许可能产生实在的常识,并对这些常识进行真实性测试,这种预测是常识产生的起源之一。
如果咱们有形式化零碎(formal system)或半形式化推理零碎,也能够进行演绎产生新的常识。上述做法很有意思,是一个乏味的挑战。
6
答听众问
问:如果对于 Dagger 算法的常识在模型外部,对于 Fleet-Dagger 的常识在模型内部,那么模型在用概念解释它们时是否有差别?
答:在我看来,模型比拟善于解释根植于外部且常常在文本中遇到的概念,对于首次见到的概念,基于内省和揣测,模型可能会给出不太让人称心的解释。
因而,模型在议论外部常见常识时会比拟智能,也就是说,相比 Fleet-Dagger,模型更善于解释 Dagger,对于 Fleet-Dagger,模型可能只是在某个文档的摘要中接触过,对于这个概念,模型不会有任何深刻见解。
问:你提到模型会在答案不受欢迎的状况下会暗藏信息,那么在凋谢域上下文中训练模型如实告知全副信息,以及在关闭域上下文中训练模型不生成未经证实信息(即便模型实际上晓得该信息)的激励之间是否存在抵触?
答:是的,这两者之间存在着十分强烈的抵触,精准率和召回率之间,信息性和正确性之间也存在着抵触,这些都是模型训练的常见抵触。面对这些抵触,不可避免要进行一番衡量,咱们会在衡量曲线上尽可能正当地做出抉择。
问:WebGPT 的 Demo 给出的内心独白十分棒。你是否思考过提炼一个模型,这个模型没有足够的内层思考空间,所以须要设置内心独白,以便咱们能够了解它的想法。
答:在没有完满的解释性计划或无奈确保模型安全性的状况下,内心独白是一个比拟好的抉择,它能够解决局部问题,咱们应该尽可能多地采纳这种设置。内心独白能够无效帮忙咱们了解模型,但显然不能齐全信赖它,模型可能会产生虚伪的内心独白,这是一个值得注意的问题。
小型模型必须要应用内心独白能力达到肯定的智力程度,当然咱们可能会放心模型暗藏信息,但这种担心其实有点牵强,总体来说,尽管内心独白存在着一些实践上的担心,但我很看好它的倒退。
另外,具体的、容许应用较短反馈的内心独白能够帮忙咱们更好地判断模型行为是否有意义。例如在浏览时,如果没有内心独白,这时模型进行了滚动操作,咱们就无奈判断这个动作是否有意义,更不可能对这个动作提供处分。然而,如果有内心独白,模型就能够通知咱们滚动操作的起因,咱们就能够查看该动作并判断是否有意义。
通过内心独白,咱们能够对模型的操作做出反馈,能够在更短的工夫内应用 RL 训练模型,同时还能让模型零碎更平安,因为咱们没有优化可能导致奇怪后果的长期行为。
问:我始终在用古典文学和哲学信息训练模型,在这个过程中,我对“什么是美?”这类问题很感兴趣,美的定义有千千万万种,你如何评估那些不同答案的绝对矩阵的定量测量,它们是否优先于输入?
答:模型生成的答案应该是主观,没有价值偏差的,很难解决带有集体偏好、价值抉择的问题,对于这类问题咱们还没有找到好的解决办法。
目前为止,咱们并不同意让模型对事物领有本人的认识,相同,咱们让模型去形容人类的想法,心愿模型将“什么是美”这类问题从新定向为更加实在的问题,例如人类或学校对这个问题的认识是什么。
欢送 Star、试用 OneFlow 最新版本:https://github.com/Oneflow-Inc/oneflow/