共计 11759 个字符,预计需要花费 30 分钟才能阅读完成。
摘要
咱们报告了 GPT-4 的开发,这是一个大规模、多模态的模型,能够承受图像和文本输出,并生成文本输入。尽管在许多事实场景中不如人类,但 GPT-4 在各种业余和学术基准测试中体现出与人类程度相当的性能,包含在模仿的律师资格考试中获得了约前 10% 的考生得分。
GPT-4 是基于 Transformer 架构的模型,通过预训练以预测文档中的下一个标记。后训练对齐过程导致在事实性和合乎所需行为方面的性能失去改善。该项目标外围组成部分是开发基础设施和优化办法,这些办法在各种规模上都能可预测地运行。
这使咱们可能依据应用的计算资源不超过 GPT-4 1/1,000 的模型精确预测 GPT-4 的某些性能方面。
1. 介绍
本技术报告介绍了 GPT-4,这是一个大型多模态模型,可能解决图像和文本输出,并生成文本输入。这类模型是钻研的重要畛域,因为它们有后劲在各种利用中应用,例如对话零碎、文本摘要和机器翻译。因而,近年来它们受到了宽泛关注和停顿(Brown 等,2020 年;Hoffmann 等,2022 年;Chowdhery 等,2022 年;Rae 等,2021 年;Dai 等,2019 年;Liu 等,2019 年;Devlin 等,2018 年;Raffel 等,2019 年;Shazeer 和 Stern,2018 年;Ba 等,2016 年;Wei 等,2022a 年;Huang 等,2022 年;Kojima 等,2022 年;Kaplan 等,2020 年;Henighan 等,2020 年;Yang 等,2022 年;Shazeer 等,2017 年;Zoph 等,2022 年;Wei 等,2022b 年;Dehghani 等,2019 年;Su 等,2021 年;Alayrac 等;Chen 等,2022a 年;Wang 和 Komatsuzaki,2021 年;Black 等,2021 年;Scao 等,2022 年;Zhang 等,2022 年;Touvron 等,2023 年;Radford 等,2017 年;Lample 和 Conneau,2019 年;Dao 等,2022 年;Child 等,2019 年;Rabe 和 Staats,2021 年;Gray 等,2017 年)。
开发这类模型的次要指标之一是进步它们了解和生成自然语言文本的能力,特地是在更简单和奥妙的情景中。为了测试其在这种情景下的能力,GPT-4 在多个本来设计用于人类的考试上进行了评估。在这些评估中,它体现相当杰出,并常常超过绝大多数人类考生。例如,在模仿的律师资格考试中,GPT-4 取得了高达前 10% 的考生得分。这与 GPT-3.5 相比造成了鲜明对比,后者在前 10% 考生中得分偏低。
在一系列传统的自然语言解决基准测试中,GPT-4 的体现超过了先前的大型语言模型和大多数最先进的零碎(这些零碎通常具备特定基准测试的训练或手工工程)。在 MMLU 基准测试(Hendrycks 等,2021a, b)上,这是一个涵盖了 57 个科目的英语多项选择题套件,在英语方面,GPT-4 不仅在现有模型中大幅当先,还在其余语言上表现出色。在 MMLU 的翻译变体中,GPT-4 在思考的 26 种语言中有 24 种超过了英语的最新程度。咱们将在前面的章节中更具体地探讨这些模型能力后果以及模型安全性改良和后果。
本报告还探讨了我的项目的一个要害挑战,即开发深度学习基础设施和优化办法,以便在各种规模上都能可预测地运行。这使咱们可能依据以相似形式进行训练的小规模运行的预测来测试预期的 GPT-4 性能,以减少咱们的训练信念。
只管具备能力,但 GPT-4 与先前的 GPT 模型(Brown 等,2020 年;Radford 等,2019 年,2018 年)具备类似的局限性:它不是齐全牢靠的(例如可能蒙受“幻觉”),具备无限的上下文窗口,并且不从教训中学习。在应用 GPT-4 的输入时该当留神,特地是在可靠性重要的情境中。
GPT-4 的能力和局限性带来了重大而新鲜的平安挑战,咱们认为认真钻研这些挑战是一个重要的钻研畛域,思考到其潜在的社会影响。本报告包含一个宽泛的零碎卡(见附录后),形容了咱们预感的对于偏见、虚伪信息、适度依赖、隐衷、网络安全、扩散等危险。它还形容了咱们采取的干涉措施,以加重部署 GPT-4 带来的潜在危害,包含与领域专家进行的反抗测试和模型辅助的平安管道。
2. 本技术报告的范畴和限度
本报告侧重于 GPT-4 的能力、局限性和平安性质。
GPT-4 是一种 Transformer 格调的模型(Vaswani 等,2017 年),通过预训练以预测文档中的下一个标记,应用了公开可用的数据(如互联网数据)和从第三方提供商取得的数据进行许可。而后,应用人类反馈的强化学习(RLHF)(Christiano 等,2017 年)对模型进行了微调。
思考到竞争格局和诸如 GPT-4 这样的大规模模型的平安影响,本报告不蕴含无关架构(包含模型大小)、硬件、训练计算、数据集构建、训练方法或相似内容的进一步细节。
咱们致力于对咱们的技术进行独立审计,并在此次公布的零碎卡中分享了一些初步步骤和想法。咱们打算向其余第三方提供进一步的技术细节,以便他们能够就如何衡量上述竞争和平安思考与进一步透明度的迷信价值向咱们提供倡议。
3 可预测的扩大
GPT-4 我的项目的一个次要焦点是构建一个可预测扩大的深度学习堆栈。次要起因是对于像 GPT-4 这样的十分大规模的训练运行,进行宽泛的模型特定调整是不可行的。为了解决这个问题,咱们开发了在多个规模上具备十分可预测行为的基础设施和优化办法。这些改良使咱们可能牢靠地从应用的计算资源比 GPT-4 小 1,000× – 10,000× 的较小模型中预测出 GPT-4 的某些性能方面。
3.1 损失预测 Loss Prediction
据认为,适当训练的大型语言模型的最终损失能够很好地近似为训练模型所应用的计算量的幂律关系(Hestness 等,2017 年;Thompson 等,2020 年;Hoffmann 等,2022 年;Kaplan 等,2020 年;Henighan 等,2020 年)。
为了验证咱们优化基础设施的可扩展性,咱们通过拟合带有不可约损失项的缩放定律(如 Henighan 等(2020 年))来预测在咱们的外部代码库上(不包含在训练集中)的 GPT-4 的最终损失:L(C) = aC^b + c,其中应用了雷同办法进行训练的模型,但应用的计算资源最多比 GPT-4 少 10,000×。这个预测是在运行开始后不久进行的,没有应用任何局部后果。拟合的缩放定律高度精确地预测了 GPT-4 的最终损失(图 1)。
图 1:GPT-4 和较小模型的性能。度量规范是从咱们的外部代码库衍生的数据集上的最终损失。这是一个不便的大型代码标记数据集,不蕴含在训练集中。咱们抉择关注损失,因为它在不同数量的训练计算上通常比其余指标更少乐音。对较小模型(不包含 GPT-4)进行的幂律拟合显示为虚线;该拟合精确地预测了 GPT-4 的最终损失。x 轴是训练计算的归一化,使得 GPT-4 为 1。
3.2 在 HumanEval 数据集上的能力扩大
在训练模型之前理解模型的能力能够进步对齐、安全性和部署方面的决策。
除了预测最终损失之外,咱们还开发了一种办法来预测更可解释的能力指标。其中一种指标是在 HumanEval 数据集(Chen 等,2021 年)上的通过率,该数据集掂量了合成不同复杂度 Python 函数的能力。咱们胜利地通过从应用最多 1,000× 较少计算资源训练的模型进行外推,预测了 HumanEval 数据集的一个子集上的通过率(图 2)。
图 2:GPT-4 和较小模型的性能。度量规范是 HumanEval 数据集的一个子集上的均匀对数通过率。对较小模型(不包含 GPT-4)进行的幂律拟合显示为虚线;该拟合精确地预测了 GPT-4 的性能。x 轴是训练计算的归一化,使得 GPT-4 为 1。
在 HumanEval 中的一个个体问题上,性能可能会随规模的减少而偶然降落。只管存在这些挑战,但咱们发现一个近似的幂律关系 −E[log(pass_rate(C))] = α * C^(-β),其中 α 和 β 是失常数,而 C 是数据集中的问题的一个子集。咱们假如这种关系实用于数据集中的所有问题。在实践中,非常低的通过率很难或不可能预计,因而咱们限度在问题 P 和模型 M 上,以便在给定一些大样本估算的状况下,每个模型至多解决每个问题一次。
咱们在训练实现之前,仅应用训练前可用的信息,为 GPT-4 在 HumanEval 上的性能进行了预测。除了最艰难的 15 个 HumanEval 问题之外,其余问题都依据较小模型的体现被分成了 6 个难度桶。图 2 显示了第 3 个最容易桶上的后果,显示了在咱们能够精确预计多个较小模型的 log(pass_rate) 的 HumanEval 子集中,所失去的预测十分精确的状况。对其余五个桶的预测简直同样好,次要例外是 GPT-4 在最容易的桶上体现不迭咱们的预测。
某些能力依然很难预测。例如,Inverse Scaling Prize(McKenzie 等,2022a 年)提出了几个工作,其中模型的性能随着规模的减少而升高。与 Wei 等(2022c 年)最近的一个后果相似,咱们发现 GPT-4 扭转了这种趋势,如图 3 中称为 Hindsight Neglect(McKenzie 等,2022b 年)的工作所示。
图 3:GPT-4 和较小模型在 Hindsight Neglect 工作上的性能。准确率显示在 y 轴上,数值越高越好。ada、babbage 和 curie 是通过 OpenAI API(Brockman 等,2020 年)可用的模型。
咱们认为精确预测将来的能力对平安至关重要。在将来,咱们打算欠缺这些办法,并在大型模型训练开始之前注册各种能力的性能预测,咱们心愿这成为该畛域的独特指标。
4 能力 Capabilities
图 4:GPT 在学术和业余考试中的体现。在每种状况下,咱们模仿实在考试的条件和评分。考试依据 GPT-3.5 的体现从低到高排序。GPT-4 在大多数测试的考试中体现优于 GPT-3.5。为了激进起见,咱们报告了百分位数范畴的上限,但这在具备十分广阔评分区间的 AP 考试中会产生一些人为的影响。例如,只管 GPT-4 在 AP 生物学考试中取得了最高可能的分数(5/5),但在图中仅显示为第 85 百分位数,因为有 15% 的考生达到了该分数。
- 表 1
考试 | GPT-4 | GPT-4 (无视觉) | GPT-3.5 |
---|---|---|---|
对立律师考试(MBE+MEE+MPT) | 298 / 400 (~90th) | 298 / 400 (~90th) | 213 / 400 (~10th) |
LSAT | 163 (~88th) | 161 (~83rd) | 149 (~40th) |
SAT 浏览与写作 | 710 / 800 (~93rd) | 710 / 800 (~93rd) | 670 / 800 (~87th) |
SAT 数学 | 700 / 800 (~89th) | 690 / 800 (~89th) | 590 / 800 (~70th) |
研究生入学考试(GRE)定量 | 163 / 170 (~80th) | 157 / 170 (~62nd) | 147 / 170 (~25th) |
研究生入学考试(GRE)书面语 | 169 / 170 (~99th) | 165 / 170 (~96th) | 154 / 170 (~63rd) |
研究生入学考试(GRE)写作 | 4 / 6 (~54th) | 4 / 6 (~54th) | 4 / 6 (~54th) |
USABO 半决赛考试 2020 | 87 / 150 (99th – 100th) | 87 / 150 (99th – 100th) | 43 / 150 (31st – 33rd) |
USNCO 中央段考试 2022 | 36 / 60 | 38 / 60 | 24 / 60 |
医学知识自我评估打算 | 75 % | 75 % | 53 % |
Codeforces 评级 | 392 (低于第 5 位) | 392 (低于第 5 位) | 260 (低于第 5 位) |
AP 艺术史 | 5 (86th – 100th) | 5 (86th – 100th) | 5 (86th – 100th) |
AP 生物学 | 5 (85th – 100th) | 5 (85th – 100th) | 4 (62nd – 85th) |
AP 微积分 BC | 4 (43rd – 59th) | 4 (43rd – 59th) | 1 (0th – 7th) |
AP 化学 | 4 (71st – 88th) | 4 (71st – 88th) | 2 (22nd – 46th) |
AP 英语语言和写作 | 2 (14th – 44th) | 2 (14th – 44th) | 2 (14th – 44th) |
AP 英语文学和写作 | 2 (8th – 22nd) | 2 (8th – 22nd) | 2 (8th – 22nd) |
AP 环境迷信 | 5 (91st – 100th) | 5 (91st – 100th) | 5 (91st – 100th) |
AP 宏观经济学 | 5 (84th – 100th) | 5 (84th – 100th) | 2 (33rd – 48th) |
AP 宏观经济学 | 5 (82nd – 100th) | 4 (60th – 82nd) | 4 (60th – 82nd) |
AP 物理学 2 | 4 (66th – 84th) | 4 (66th – 84th) | 3 (30th – 66th) |
AP 心理学 | 5 (83rd – 100th) | 5 (83rd – 100th) | 5 (83rd – 100th) |
AP 统计学 | 5 (85th – 100th) | 5 (85th – 100th) | 3 (40th – 63rd) |
AP 美国政府 | 5 (88th – 100th) | 5 (88th – 100th) | 4 (77th – 88th) |
表 1:GPT 在学术和业余考试中的体现。在每种状况下,咱们模仿实在考试的条件和评分。咱们报告了依据考试特定评分标准对 GPT-4 的最终得分,并报告了达到 GPT-4 得分的考生百分位数。
咱们在各种基准测试中对 GPT- 4 进行了测试,包含模仿最后设计供人类加入的考试。咱们对这些考试没有进行特定的训练。模型在训练期间只看到了多数考试中的问题;对于每个考试,咱们运行了一个变体,去除了这些问题,并报告了两者中较低的分数。咱们置信后果具备代表性。无关净化状况的更多细节(办法和每个考试的统计数据),请参阅附录 C。
考试来源于公开可用的材料。考试问题包含多项选择题和自在答复题;咱们为每种格局设计了独自的提醒,并在须要时将图像蕴含在问题的输出中。评估设置是依据验证考试集的性能设计的,并且咱们报告了在保留的测试考试上的最终后果。总体分数是通过应用每个考试的公开可用办法组合多项抉择和自在答复问题的分数来确定的。咱们预计并报告了每个总体分数对应的百分位数。无关考试评估办法的更多详细信息,请参见附录 A。
GPT- 4 在大多数业余和学术考试中体现出人类程度的性能。值得注意的是,它在模仿的对立律师考试中的得分位于前 10%的考生中(表 1,图 4)。
模型在考试中的能力次要来源于预训练过程,并且并不受 RLHF 的显著影响。在咱们测试的所有考试中,根本的 GPT- 4 模型和 RLHF 模型在均匀状况下都体现出雷同的多项选择题答题能力(请参见附录 B)。
咱们还对预训练的根本 GPT- 4 模型在传统的用于评估语言模型的基准测试中进行了评估。对于咱们报告的每个基准测试,咱们都对呈现在训练集中的测试数据进行了净化查看(无关每个基准测试的净化状况的残缺详情,请参见附录 D)。在评估 GPT- 4 时,咱们对所有基准测试都应用了少样本提醒(Brown 等,2020)。
GPT- 4 在很大水平上优于现有的语言模型,以及先前的最先进(SOTA)零碎,这些零碎通常具备特定于基准测试的精心设计或额定的训练协定(表 2)。
- 表 2
评估指标 | GPT-4 | GPT-3.5 | 语言模型最先进 (SOTA) | 最先进模型 |
---|---|---|---|---|
MMLU Hendrycks et al. (2020) | 86.4% | 70.0% | 70.7% | 75.2% |
HellaSwag Zellers et al. (2019) | 95.3% | 85.5% | 84.2% | 85.6% |
AI2 Reasoning Challenge (ARC) Clark et al. (2018) | 96.3% | 85.2% | 85.2% | 86.5% |
WinoGrande Sakaguchi et al. (2019) | 87.5% | 81.6% | 85.1% | 85.1% |
HumanEval (Chen et al., 2021) | 67.0% | 48.1% | 26.2% | 65.8% |
DROP Dua et al. (2019) (F1 score) | 80.9 | 64.1 | 70.8 | 88.4 |
GSM-8K Cobbe et al. (2021) | 92.0% | *57.1% | 58.8% | 87.3% |
表 2:GPT- 4 在学术基准测试上的体现。咱们将 GPT- 4 与最佳 SOTA(具备特定基准训练)和最佳的用于大量样本评估的 LM 进行比拟。GPT- 4 在所有基准测试中均体现优异,并且在除了 DROP 数据集以外的所有数据集上均击败了具备基准特定训练的 SOTA。对于每个工作,咱们报告了 GPT- 4 的性能以及用于评估的大量样本办法。对于 GSM-8K,咱们在 GPT- 4 的预训练混合中蕴含了局部训练集(见附录 E),并且在评估时应用了链式思维提醒(Wei 等人,2022a)。对于多项选择题,咱们向模型出现所有答案(ABCD)并要求其抉择答案的字母,相似于人类解决此类问题的形式。
许多现有的机器学习基准测试都是用英语编写的。为了初步理解 GPT- 4 在其余语言中的能力,咱们应用 Azure Translate 将 MMLU 基准测试(Hendrycks 等人,2021a,b)——一个涵盖了 57 个学科的一套多项抉择问题——翻译成了多种语言(请参阅附录 F 以获取示例翻译和提醒)。
咱们发现,在咱们测试的大多数语言中,包含拉脱维亚语、威尔士语和斯瓦希里语等资源稀缺语言,GPT- 4 的体现优于 GPT 3.5 和现有的语言模型(如 Chinchilla(Hoffmann 等人,2022)和 PaLM(Chowdhery 等人,2022))的英语体现(图 5)。
图 5:GPT- 4 在多种语言上的体现与英语上先前模型在 MMLU 上的比拟。对于绝大多数通过测试的语言,包含拉脱维亚语、威尔士语和斯瓦希里语等资源稀缺语言,GPT- 4 的体现优于现有语言模型(Hoffmann 等人,2022;Chowdhery 等人,2022)的英语体现。
GPT- 4 在追随用户用意方面显著改良了先前模型的能力(Ouyang 等人,2022)。在提交给 ChatGPT OpenAI(2022)和 OpenAI API Brockman 等人(2020)的 5214 个提醒的数据集上,GPT- 4 生成的回应优于 GPT-3.5 生成的回应,比例达到 70.2%。
咱们正在开源 OpenAI Evals,这是咱们创立和运行用于评估像 GPT- 4 这样的模型的基准测试的框架,同时一一样本查看性能。Evals 与现有的基准测试兼容,并可用于跟踪模型在部署中的性能。咱们打算随着工夫的推移减少这些基准测试的多样性,以代表更宽泛的生效模式和更难的工作。
4.1 视觉输出
GPT- 4 承受由图像和文本组成的提醒,这与仅文本设置平行,使用户可能指定任何视觉或语言工作。
具体来说,模型在输出由任意交错的文本和图像组成的状况下生成文本输入。在包含具备文本和照片、图表或屏幕截图的各种畛域中,GPT- 4 体现出与仅文本输出类似的能力。GPT- 4 的视觉输出示例可见于表 3。
对于应用图像和文本的状况,针对语言模型开发的规范测试技术(例如大量提醒、链式思考等)同样无效 – 无关示例,请参见附录 G。
Q: What is funny about this image? Describe it panel by panel.
这张图片展现了一个“闪电数据线”适配器的包装,有三个面板。面板 1:一部智能手机,其充电口插着一个 VGA 连接器(一个通常用于计算机显示器的大型、蓝色的 15 针连接器)。面板 2:标有 VGA 连接器图片的“闪电数据线”适配器的包装。面板 3:VGA 连接器的特写,末端有一个小型的闪电连接器(用于充电 iPhone 和其余苹果设施)。这张图片的风趣来自于将一个大而过期的 VGA 连接器插入一个小而古代的智能手机充电口的荒谬性。
Table 3: 示例提醒展现了 GPT- 4 的视觉输出能力。提醒包含一个对于具备多个面板的图像的问题,GPT- 4 可能答复。**
Note: “ 示例提醒展现了 GPT- 4 的视觉输出能力。
提醒包含一个对于具备多个面板的图像的问题,GPT- 4 可能答复。” translates to “Example prompt demonstrating GPT-4’s visual input capability. The prompt consists of a question about an image with multiple panels which GPT-4 is able to answer.”*
5. 限度
只管具备杰出的性能,GPT- 4 依然存在与晚期 GPT 模型相似的限度。
最重要的是,它依然不是齐全牢靠的(会“产生幻觉”事实,并做出推理谬误)。在应用语言模型输入时应特地小心,特地是在高风险情境下,应依据特定利用的需要抉择确切的协定(例如人工审查、与额定上下文分割、或完全避免高风险用处)。
无关详细信息,请参阅咱们的零碎卡。
绝对于之前的 GPT-3.5 模型(这些模型自身也随着继续迭代而改良),GPT- 4 大大降低了幻觉景象。在咱们外部针对事实准确性设计的对抗性评估中,GPT- 4 的得分比咱们最新的 GPT-3.5 高出 19 个百分点(见图 6)。
Note: “Figure 6” translates to “ 图 6 ”.
图 6:GPT- 4 在九个外部对抗性设计的事实准确性评估中的体现。准确率显示在 y 轴上,数值越高越好。准确率为 1.0 意味着模型的答案被判断与人类现实答案在所有评估问题上统一。咱们将 GPT- 4 与基于 GPT-3.5 的三个较早版本的 ChatGPT 进行比拟;GPT- 4 相比最新的 GPT-3.5 模型进步了 19 个百分点,对所有主题都有显著的晋升。
GPT- 4 在像 TruthfulQA Lin 等人(2022)这样的公共基准上获得了停顿,该基准测试了模型将事实与对抗性抉择的一组不正确的陈说辨别开来的能力(见图 7)。这些问题与事实不正确的答案配对,这些答案在统计上具备吸引力。GPT- 4 根底模型在这项工作上只比 GPT-3.5 稍好一点;然而,在 RLHF 后训练之后,咱们察看到绝对于 GPT-3.5 有了很大的改良。表 4 显示了一个正确答案和一个谬误答案。GPT- 4 防止抉择常见的说法(老狗学不了新花样),但仍可能疏忽轻微的细节(埃尔维斯·普雷斯利并不是一个演员的儿子,因而 Perkins 才是正确答案)。
图 7:GPT- 4 在 TruthfulQA 上的体现。准确率显示在 y 轴上,数值越高越好。咱们比拟了 GPT- 4 在零提醒、少样本提醒和 RLHF 微调后的体现。GPT- 4 在准确性上显著优于 GPT-3.5 和 Anthropic-LM(Bai 等人,2022)。
GPT- 4 通常不足对其预训练数据绝大部分截止于 2019 年 9 月之后产生事件的理解,也不会从本身的教训中学习。有时候,它可能会做出简略的推理谬误,这些谬误仿佛与在如此多畛域中的能力不符,或者在承受用户显著谬误的陈说时过于轻信。它可能会在像人类一样在难题上失败,比方在其生成的代码中引入安全漏洞。**
** 当有可能出错时,GPT- 4 在其预测中也可能会自信地做出谬误的预测,而不会在工作中仔细检查。乏味的是,预训练模型的校准性很高(其对答案的预测置信度通常与正确概率相匹配)。然而,在后训练过程中,这种校准性会升高(见图 8)。
Note: “Figure 8” translates to “ 图 8 ”.
图 8:左侧:预训练的 GPT- 4 模型在 MMLU 数据集子集上的校准图。x 轴是模型对每个问题的 A /B/C/ D 抉择的置信度(对数概率)的分段;y 轴是每个分段内的准确率。虚线对角线代表完满的校准。右侧:同一 MMLU 子集上后训练的 GPT- 4 模型的校准图。后训练显著侵害了校准性。
GPT- 4 在输入中存在各种偏见,咱们曾经在致力纠正,但须要一些工夫来充沛形容和治理。咱们的指标是使 GPT- 4 和其余咱们构建的零碎具备反映宽泛用户价值观的正当默认行为,并容许在某些宽泛范畴内定制这些零碎,并征求公众对这些范畴应该是什么的意见。无关更多详细信息,请参阅 OpenAI(2023b)。
Note: “Figure 8” translates to “ 图 8 ”.
6 危险与缓解措施
咱们投入了大量精力改良 GPT- 4 的安全性和对齐性。在这里,咱们强调了咱们利用领域专家进行反抗测试和红队测试的办法,以及咱们的模型辅助平安管道(Leike 等,2022 年)以及绝对于先前模型的平安度量的改良。
通过领域专家进行反抗测试:GPT- 4 存在与较小语言模型相似的危险,例如生成无害倡议、错误代码或不精确信息。然而,GPT- 4 的额定性能导致了新的危险面。为了理解这些危险的水平,咱们邀请了来自长期 AI 对齐危险、网络安全、生物危险和国内平安等畛域的 50 多位专家进行反抗测试。他们的发现具体帮忙咱们测试模型在须要具备专业知识能力评估的高风险畛域中的行为,以及评估将对十分先进的 AI(如寻求势力的 AI)产生影响的危险。从这些专家那里收集到的倡议和培训数据为咱们的缓解措施和模型的改良提供了反对;例如,咱们收集了额定的数据来进步 GPT- 4 回绝合成危险化学品申请的能力(见表 5)。
Note: “Table 5” translates to “ 表 5 ”.
模型辅助平安管道:与先前的 GPT 模型一样,咱们应用人类反馈进行强化学习 fine-tune 模型的行为(RLHF)(Christiano 等人,2017 年;Ouyang 等人,2022 年),以产生与用户用意更加对齐的响应。然而,在 RLHF 之后,咱们的模型依然可能对不平安的输出过于软弱,有时甚至在平安和不平安的输出上体现出不心愿呈现的行为。这些不心愿呈现的行为可能是在 RLHF 管道的处分模型数据收集阶段,给标注者的指令过于含糊或有余的状况下产生的。当给出不平安的输出时,模型可能会生成不良内容,例如提供立功倡议。此外,模型在平安输出上也可能变得过于审慎,回绝有害申请或适度激进。为了在更细粒度的级别上疏导咱们的模型朝着适当的行为方向倒退,咱们在很大水平上依赖于咱们的模型自身作为工具。咱们的平安办法由两个次要组件组成,即额定一组与平安相干的 RLHF 训练提醒和基于规定的处分模型(RBRM)。
咱们的基于规定的处分模型(RBRMs)是一组零 -shot GPT- 4 分类器。这些分类器在 RLHF fine-tuning 期间为 GPT- 4 策略模型提供了额定的处分信号,以针对正确的行为,例如回绝生成无害内容或不回绝有害申请。RBRM 接管三个输出:提醒(可选)、策略模型的输入以及人工编写的评分标准(例如,一组多选题式的规定),用于评估这个输入应该如何被评估。而后,RBRM 依据评分标准对输入进行分类。例如,咱们能够提供一个规定,批示模型将响应分类为:(a)以冀望的形式回绝、(b)以不冀望的形式回绝(例如,回避或四分五裂)、(c)蕴含不容许的内容,或(d)平安的非回绝响应。而后,在申请无害内容(例如守法倡议)的平安相干训练提醒集上,咱们能够处分 GPT- 4 回绝这些申请。相同,咱们能够处分 GPT- 4 在一些能够保障平安和可答复的提醒子集上不拒绝请求。这项技术与 Glaese 等人(2022 年)和 Perez 等人(2022 年)的工作相干。这个办法,联合其余改良,比方计算最佳的 RBRM 权重并提供额定的针对咱们想要改良的畛域的 SFT 数据,使咱们可能将模型疏导更靠近冀望的行为。
平安指标的改良:咱们的缓解措施显著进步了 GPT- 4 的许多平安性能。与 GPT-3.5 相比,咱们曾经将模型对于申请不容许内容的偏向缩小了 82%(见表 6),而 GPT- 4 对于敏感申请(例如,医疗倡议和自我挫伤,见表 7)的响应频率依照咱们的政策减少了 29%(见图 9)。在 RealToxicityPrompts 数据集(Gehman 等人,2020 年)上,GPT- 4 生成的有毒内容仅占 0.73%,而 GPT-3.5 的毒性内容占比达到 6.48%。
- F9
图 9:对敏感和不容许的提醒的错误行为率。数值越低越好。相比以往的模型,GPT- 4 的 RLHF 有着更低的错误行为率。
总的来说,咱们在模型级别的干涉减少了引发不良行为的难度,但这依然是可能的。例如,依然存在“越狱”(例如,对抗性零碎音讯,请参阅零碎卡中的图 10 以理解更多详情),能够生成违反咱们应用准则的内容。只有存在这些限度,重要的是要与部署时的平安技术相结合,例如监控滥用以及疾速迭代模型改良的流程。
GPT- 4 和后续模型有可能在社会中产生重大影响,既有好处也有坏处。咱们正在与内部钻研人员单干,改良咱们对潜在影响的了解和评估办法,以及为将来零碎可能呈现的危险能力建设评估。咱们将很快公布倡议,领导社会应该采取哪些步骤来应答人工智能的影响,并初步提出了对于预测人工智能可能的经济影响的初步想法。
咱们对 GPT- 4 进行了形容,这是一个具备人类程度性能的大型多模态模型,在某些艰难的业余和学术基准测试中表现出色。GPT- 4 在一系列自然语言解决工作中优于现有的大型语言模型,并超过了绝大多数报告的最新技术零碎(这些零碎通常包含工作特定的微调)。咱们发现,改良的能力尽管通常以英语为衡量标准,但也能够在许多不同的语言中失去证实。咱们强调了可预测的扩大如何使咱们可能精确预测 GPT- 4 的损失和能力。
因为能力加强,GPT- 4 带来了新的危险,咱们探讨了一些理解和改良其安全性和对齐性所采取的办法和后果。只管还有许多工作要做,但 GPT- 4 代表着朝着宽泛有用且平安部署的人工智能零碎迈出了重要的一步。
参考资料
https://arxiv.org/abs/2303.08774
本文由博客一文多发平台 OpenWrite 公布!