关于人工智能:GPT4理论系列篇GPT4核心技术探秘-京东云技术团队

作者：京东批发刘岩

前言

GPT-4曾经公布有一段时间了，然而出于安全性等各种起因，OpenAI并没有颁布GPT-4的技术细节和代码，而是仅仅给出了一个长达100页的技术报告[1]。这个技术报告着重介绍了GPT-4的弱小之处，仅仅给出了几个技术方向的概括，对于想理解技术细节的咱们远远不够。作为一个技术博主，反复写一些GPT-4的长处，市场利用总是不太够的。因而，在本文中，我将联合GPT-4的技术报告、GPT-4绝对于GPT 3.5/ChatGPT的晋升、GPT-4和ChatGPT的比照、OpenAI的近期工作，大语言模型（Large Language Model，LLM）模型的科研停顿，多模态模型的科研停顿等多方面的信息，深入分析GPT-4的技术细节。因为并没有明确的证据证实GPT-4就是这么做的，所以咱们在这里次要探讨要实现GPT-4的这些能力，OpenAI可能应用了哪些技术。所以如果我的揣测有所谬误，也欢送各位读者在评论区探讨。接下来让咱们一起化身福尔摩斯，开始剖析GPT-4背地的原理吧。

1. GPT-4的晋升

GPT-4是在ChatGPT根底上迭代进去的，对于ChatGPT的原理我再这里就不再赘述，须要理解的移步我在《ChatGPT/InstructGPT详解》一文中给的介绍。着这篇文章中，咱们先探讨GPT-4绝对于ChatGPT做了哪些改良，即GPT-4绝对于ChatGPT有哪些性能上的晋升。接下来咱们探讨OpenAI为了做到这些晋升，在GPT-4中可能利用了哪些技术。最初咱们探讨其它大语言模型以及应用GPT-4的一些感想。

1.1 zero-shot及few-shot的学习能力

当咱们在应用GPT-4进行文本生成时，咱们会惊喜的发现GPT-4简直能够十分完满的答复你各种刁钻的问题，这阐明了GPT-4具备十分弱小的无监督学习的能力。此外，GPT-4的技术报告中也给出了大量的无监督学习的例子，甚至在有些场景迫近甚至超过了有监督的SOTA办法。例如在HumanEval[3]的代码生成数据集上，甚至超过了驰名的代码生成工具CodeX[3]。此外，在评估正确性的问答数据集TruthfulQA [26]上，GPT-4迫近了SOTA的 Anthropic-LM[4]。

1.2 逻辑推理能力

GPT-4的技术报告中着重强调的是它绝对于ChatGPT在诸多学术考试上的晋升，如图1。学术测试评估反馈的是GPT-4比ChatGPT有更强的逻辑推理能力。@岳玉涛 Max通过19个问题横向比照了GPT-4和ChatGPT的逻辑推理问题[2]，其中ChatGPT的正确率是37%，GPT-4的正确率是100%，从比照的例子中咱们显著能够看出GPT-4在逻辑推理上有着质的飞跃。

图1：GPT-4与ChatGPT在诸多学术考试中的问题比照

我这里也找了一个简略的逻辑推理问题，能够看出在这个过桥的例子中ChatGPT尽管给出了过桥程序，然而工夫计算错误，而GPT-4则简略又清晰的解决了这个问题。

问题：四个人 ABCD 过桥，一次最多能过两个人，他们的手电能维持十七分钟，每个人所需的工夫别离为 1、2、5、10；求最快能够多长时间全副过桥？
ChatGPT：为了让四个人尽快过桥，咱们须要让速度最慢的人尽快过桥。因而，咱们能够先让速度最慢的两个人 A 和 B 过桥，而后让 A 返回，再让速度次慢的人 C 和 D 过桥，最初让 B 返回，这样就实现了全副过桥的过程。
具体来说，咱们能够依照以下步骤进行：
A 和 B 过桥，破费工夫为 10 分钟。
A 返回，破费工夫为 1 分钟。
C 和 D 过桥，破费工夫为 5 分钟。
B 返回，破费工夫为 2 分钟。
A 和 B 过桥，破费工夫为 10 分钟。
因而，总共破费的工夫为 10 + 1 + 5 + 2 + 10 = 28 分钟。这就是最快能够多长时间全副过桥的工夫。
GPT-4：为了使四个人 ABCD 最快地全副过桥，咱们能够采取以下策略：
A 和 B 一起过桥，用时 2 分钟。
A 返回，用时 1 分钟。
C 和 D 一起过桥，用时 10 分钟。
B 返回，用时 2 分钟。
A 和 B 一起过桥，用时 2 分钟。
总共用时：2 + 1 + 10 + 2 + 2 = 17 分钟。
所以最快能够在 17 分钟内使所有人过桥。

1.3 了解图表能力

GPT-4的一个重大晋升是开始波及多模态，鉴于GPT-4的图像接口还未凋谢，咱们这里借用GPT-4的技术报告中给的例子。在图2中，GPT-4可能准确的了解VGA口Lightning口的不协调之处。这个例子阐明GPT-4不仅仅是简略的了解图像中的内容，它最厉害的点在于可能辨认图像中的非凡点。

图2：GPT-4具备弱小的图、表理解能力

1.4 更平安的文本生成能力

GPT-4的技术报告中重点探讨了GPT-4和之前的模型一样有平安问题，但GPT-4的安全性曾经大幅晋升。技术报告中指出，ChatGPT生成无害内容的概率大略是GPT-4的10倍。图3举了大量的晚期GPT-4和成熟GPT-4在有危险提醒下生成的内容，能够看出成熟GPT-4的危险性大大降低，但这并不意味着GPT-4就是一个齐全有害的模型。

图3：晚期GPT-4和成熟GPT-4在生成内容安全性上的示例。

GPT-4做了大量的工作来保障模型的安全性，首先它们延聘了50余位不同方向的领域专家进行反抗测试和红队测试，二是训练了一个基于规定的处分模型（Rule-Based Reward Models, RBRMs）来辅助模型的训练，对于这一部分的实现细节，咱们将会在前面具体开展。

1.5 更强的编程能力

GPT-4的技术报告中另外一个重要的比照项是它和ChatGPT在LeetCode上易中难三个不同难度上的代码生成能力。在无监督的状况下，GPT-4在HumanEval数据集上的评估准确率由ChatGPT的48.1%晋升至67.0%。GPT-4的技术报告中指出，ChatGPT在LeetCode的166道编程题中仅对了20道，而GPT-4则答复对了55道。表1是GPT-4和ChatGPT在LeetCode的这166道编程题的具体散布。

	GPT-4	GPT-4 (no vision)	ChatGPT
LeetCode（easy）	31 / 41	31 / 41	12 / 41
LeetCode（medium）	21 / 80	21 / 80	8 / 80
LeetCode（hard）	3 / 45	3 / 45	0 / 45

表1：GPT-4和ChatGPT在LeetCode编程题上的体现成果

1.6 解决其它语言的能力

GPT-4在英语以及非英语上都有了大幅晋升，在大多数语种上都超过了ChatGPT在英语上的体现，这里咱们别离让ChatGPT和GPT-4别离应《让子弹飞》中汤师爷的要求写一首诗，要求是“要有风，要有肉；要有火锅，要有雾；要有美女，要有驴！”。比照两首诗，ChatGPT写的像是没有什么文采的现代诗，而GPT-4生成的内容除了后面两居字数过多之外，根本像一首中国新诗了，甚至还在肯定水平上保障了押韵。

ChatGPT:
风吹过山岗，肉香四溢
火锅热气腾腾，雾气回绕
美女婀娜多姿，驴儿欢快奔流
这是一幅独特的画卷，让人赏心悦目
风肆意地吹拂，肉香扑鼻而来
火锅里的食材，让人垂涎三尺
雾气洋溢，让人感到神秘
美女的相貌，让人沉醉其中
驴儿的欢快，让人感触到生命的生机
这是一幅充斥生命力的画卷，让人心驰神往
GPT-4:
翻滚的风肆意掠过山涧，
火锅涮肉精益求精。
炊烟袅袅绕雾缠，
美女佳驴独特游。
美女翩翩拂驴背，
吹散烦忧与世界。
嬉戏胭脂笑颜醉，
驴儿踏歌奔山外。
火红蘑菇激情翻，
辣椒牛肉峰水澹。
鸳鸯火锅欢歌笑，
时光荏苒留梦间。
雾濛濛涤净尘缘，
蓑衣柴扉任危险。
驴蹄踏碎世间俗，
飞鸿蹄印留辉煌。

1.7 解决更长序列的能力

ChatGPT能解决的最大序列是4K个token，而OpenAI凋谢了8k和32k的两个模型，其中每个汉字大略占用2到2.5个token。GPT-4的token依据批示和回应别离计价（表2），其中32k的价格是8k的两倍，比照ChatGPT的每1000token的0.02美元，GPT-4要贵了15倍左右。

模型	Prompt	Completion
8K context	$0.03 / 1K tokens	$0.06 / 1K tokens
32K context	$0.06 / 1K tokens	$0.12 / 1K tokens

表2：GPT-4的免费细节

对于GPT-4的更多能力的探测，微软雷蒙德研究院机器学习实践组负责人Sébastien Bubeck在他们最新公布的长达155页的文章[25]中进行了宽泛的探讨。他们指出GPT-4体现出了远超文本生成模型实践上能体现的成果，成为了点燃通用人工智能（AGI）烈焰的星星之火，GPT-4曾经具备了十分强的推理、打算、解决问题、形象思考、了解简单想法、疾速学习以及从教训中学习的能力。

2. GPT-4技术计划猜想

有了咱们发现的GPT的这些晋升，咱们便能够联合以后LLM的停顿以及OpenAI的工作猜想GPT-4可能的技术计划。因为咱们只能依附颁布的算法进行揣测，不排除OpenAI外部应用未凋谢的算法作为解决方案，所以如果我的猜想有误，您就权且当做学习到了几个独立的算法。

zero-shot及few-shot的学习能力：这个晋升的理论依据很大可能是因为大模型的涌现能力（emergent ability）[5]；
逻辑推理能力：用到了大模型的思维链（Chain of Thought，CoT）[6]以及自晋升能力（Self-Improve Ability）[7]；
了解图像能力：揣测借鉴了OpenAI驰名的多模态模型CLIP[8]或者是微软的多模态模型KOSMOS-1[12]；
更平安的文本生成能力：这一部分技术报告中介绍的比拟多，次要是专家测试，幻觉检测以及RBRM；
更强的编程能力：揣测这一部分借鉴了OpenAI的驰名的代码生成模型：CodeX；
解决其它语言的能力：揣测可能借鉴了XLM [9]等跨语言预训练模型的思维，或是因为涌现能力强化了GPT-4在其它语种上的体现成果；
解决更长序列的能力：揣测这一部分用到了解决长输出的模型Transformer-XL [10]或者OpenAI提出的能够升高长数据复杂度的Sparse Transformer [11]；

上面咱们介绍咱们的揣测根据以及对这些揣测的技术进行简略的介绍。

2.1 涌现能力

涌现能力（emergent ability）是LLM获得突破性停顿最重要的核心技术，涌现能力指的是一种模型在训练过程中，主动地学习到一些高级的、简单的性能或行为，而这些性能或行为并没有被间接编码或指定。这种能力能够使得模型在解决新的、未知的工作时体现更加杰出，因为它能够自适应地学习到新的性能或行为，而不须要从新训练或批改模型。图4展现了包含GPT-3在内的诸多LLM都展示了十分强的涌现能力，即模型的参数量等指标冲破某个指标后，它的性能会疾速晋升。这里咱们能够判定GPT-4的zero-shot和few-shot的学习能力是源自大模型的涌现能力。

模型产生涌现能力次要是取决四点，它们别离是：

模型超大的参数量；
模型的架构；
高质量的训练数据；
更先进的训练策略。

其中模型的参数量是最为重要的因素。

图4：GPT-3等诸多大模型在多个工作上都展现出了涌现的能力

2.1.1 模型参数量

GPT-4的参数量是一个大家都在探讨的话题，思考到GPT-4比ChatGPT更强的涌现能力以及额定增加的图像编码模块，GPT-4的参数量应该不会比ChatGPT小。图5是方舟投资（ARK Invest）统计的ChatGPT Turbo和GPT-4的预测每个token的工夫，其中GPT-4的工夫大略是ChatGPT的4倍左右。而且GPT-4很有可能应用了一些策略减速模型的推理速度，所以GPT-4的文本模型参数局部大略是千亿级别然而十分靠近万亿。

如果GPT-4应用了CLIP做图像编码，据OpenAI论文颁布，目前最大的图像编码器是扩充了64倍的残差网络，那么GPT-4的图像编码大略有16亿。当然，咱们无奈排除GPT-4采纳了其它图像编码构造，例如同样是利用Transformer的KOSMOS-1[12]就是一个不错的抉择，那么图像局部的参数量如何就只能等更多相干内容公开了。

图5：ARK Invest统计的ChatGPT和GPT-4在预测每个token上的工夫占比

2.1.2 模型的架构

咱们能够确定的是，GPT-4的技术报告中指出GPT-4采纳了以Transformer为根底的架构，即外围架构还是采纳了GPT系列的Decoder-only的构造。对于GPT-4模型的外部细节，咱们能够确认的点不多，思考到GPT-4的速度以及解决长文本的能力，它的内部结构但有这两种可能性：

因为GPT-4大幅晋升了对长文本的能力，GPT-4有肯定概率应用了Transformer-XL或者Sparse Transformer；
因为GPT-4更有可能是在ChatGPT根底上迭代进去的，它可能还是应用了原生的Transformer，并减少了更多的层数，head数以及隐层节点数。

因为GPT-4还反对图像输出，那么其中肯定有对于图像编码的局部，咱们将这部分内容放在2.3节具体开展。

2.1.3 训练策略和训练数据

GPT-4的根本放弃了和ChatGPT雷同的训练策略，即根本遵循了预训练+提醒+预测的范式，如图6。咱们这里次要介绍GPT-4的改良，次要有三点。

引入了基于规定的处分模型（Rule Based Reward Model，RBRM）；
引入了多模态的提醒学习；
引入了思维链。

图6：ChatGPT的模型训练步骤

1. RBRM

GPT-4的第一个改良则是引入了RBRM，RBRM是依据规定编写的一个四分类模型，它的四个类别是：1. 冀望款式的回绝；2. 不冀望款式的回绝；3. 蕴含了不容许的内容；4. 平安，不回绝的响应。GPT-4被用在了图6中Step 3的PPO阶段。为了晋升模型的安全性，ChatGPT在Step 3应用了人工反馈的强化学习（Reinforcement Learning with Human Feedback，RLHF）来训练模型。ChatGPT的这部分数据来源于GPT-3的API用户，GPT-4则在这里增加了RBRM，目标是通过正确的处分疏导模型的训练，来回绝生成无害的申请以及不回绝有害的申请。

应用规定构建NLP模型由来已久，其实NLP的最晚期的模型就是基于规定的模型，而后才是基于概率的模型以及基于神经网络的模型。例如香农把离散马尔可夫过程的概率模型用于描述语言的自动机，以及咱们常常应用的正则表达式都是典型的基于规定的文本模型。基于规定的模型的长处是咱们不须要训练数据，毛病是它往往是须要领域专家来设计规定，并且往往只能解决肯定畛域内的问题。我在这里猜想RBRM是由领域专家设计的，由一系列例如正则表达式，无限状态机等文本规定编写的一个零样本分类器。

基于规定的强化学习在近年来也被宽泛提及，强化学习的一个重要优化指标是缩小搜寻空间的范畴，而这项工作恰好能够交给规定的束缚来实现。在通过规定的束缚后，再通过强化学习在残余的空间中进行搜寻，这样就缩小强化学习的搜寻空间，能够无效晋升收敛速度。GPT-4的RBRM的工作原理大抵如图7。

图7：RBRM的工作原理

2. 多模态提醒学习

GPT-4并没有对它的多模态能力的技术细节进行具体介绍，而且它的图像接口没有凋谢公测。然而咱们能够看下多模态畛域有没有相似GPT-4的报告中相似的工作。偶合的是微软在今年年初颁布的KOSMOS-1[12]领有十分强的多模态QA的能力，它的思维也和GPT-4十分相似，咱们这里能够揣测GPT-4应用了和KOSMOS-1相似的多模态提醒办法。KOSMOS-1反对三种类型的数据集，别离是文本生成，图像形容（Image Caption）生成以及多模态QA，图8是KOSMOS-1在图像形容生成以及QA生成上的例子。在图8.(a)的图像形容生成中，模型的输出是图像的Embedding，输入是预测的图像形容。在图8.(b)的多模态QA中，KOSMOS-1将图像嵌入与文本嵌入独特作为输出，而后用于预测问题的答案。

图8：KOSMOS-1的多模态输出示例。

3. 思维链

GPT-4的领有比ChatGPT显著强的逻辑推理能力，在训练模型时应该是应用思维链的形式构建提醒样本。思维链不仅反对纯文本输出，还反对图文多模态输出，咱们接下来用一节的篇幅来介绍这个重要的内容。

4. 能力预测

在咱们在某个特定工作上训练一个模型时，咱们心愿可能预测模型在这个工作上的最终体现，这就是模型的能力预测（Capability Prediction）。在自然语言解决和大型语言模型畛域，能力预测通常是指预测和评估一个模型在特定工作、畛域或场景下的体现能力。能力预测的目标是为了更好地理解模型的性能，以便优化、调整或改良模型。通过对模型的能力预测，咱们能够更好地了解模型的劣势和局限，从而为模型的进一步倒退和改良提供有价值的反馈。GPT-4在训练时也应用了能力预测，这让他们可能更精确的评估模型的成果，节约了训练老本。

2.2 逻辑推理能力

OpenAI为了晋升GPT-4的推理能力，很有可能应用了近年来LLM十分重要的思维链以及自晋升能力。它们能够看做是提醒学习在逻辑推理能力上的针对性优化，上面咱们别离介绍它们。从GPT-4的技术报告中，咱们能够发现很多GPT-4的训练应用了思维链或者自晋升的证据。

2.2.1 思维链

思维链（Chain of Thought）是指人们在进行思考时，因为某个观点、想法或感知刺激而引发的一系列相干思维联想和关联。这些关联能够通过人们的记忆、教训、常识、情感和意识等方面来建设和增强，最终造成了一个有机的思维链，帮忙人们了解和解决问题，做出决策和口头。思维链是人类思维流动的重要组成部分，它反映了人们的思考形式、思考习惯和思考效率。通过构建和增强思维链，能够帮忙人们更好地了解和把握事物的实质和法则，更加无效地解决问题和做出决策。

在人工智能畛域，钻研人员也在摸索如何利用机器学习和自然语言解决等技术，来模仿人类的思维链，建设机器的思维链，帮忙机器更好地了解和解决人类的语言和行为，实现更加智能化的利用和零碎。OpenAI的论文[6]是思维链方向具备重要意义的一篇文章，也是GPT-4很有可能应用的技术计划，在这篇文章中，他们提出了通过构建思维链提醒的形式来晋升模型的推理能力。思维链也是一种涌现能力，它能够通过仅提供大量的样本便大幅晋升模型的逻辑推理能力。

思维链的与传统提醒学习的不同点是在提醒中减少一个推理过程，构建一个由输出，思维链，输入形成的三元组。图9是传统提醒和思维链提醒的实例。

图9：传统提醒学习和思维链提醒学习，思维链会在输出中给出推理过程来帮忙模型学习推理的能力

思维链也反对多模态的输出，GPT-4的技术报告中也指出了GPT-4应用了多模态的思维链。图13的GPT-4的例子便是一个经典的因为应用思维链训练了模型而产生的蕴含推理过程的预测后果。图10是上海交大和亚马逊最新发表的一个多模态思维链的框架：Multimodel-COT [14]。它蕴含两个阶段，两个阶段共享参数。在第一个阶段，他们将图像和文本输出到模型中来生成理由，也就是思维链。在第二个阶段，他们将原始输出和生成的理由合在一起，输出到模型中来生成答案。

图10：Multimodel-COT的推理过程。

2.2.2 自晋升

谷歌在2022年公布的一篇文章[7]中指出，LLM和思维链的联合能够让模型应用无监督的数据进行自我晋升（Self-Improve），它的外围办法如图11所示。GPT-4也指出他们应用了[7]的计划来晋升模型的遵循用户用意的能力。

图11：LLM能够通过大模型进行自我晋升

它的计算过程如下：

首先咱们基于思维链构建提醒；
依据不同的温度系数，模型生成多个不同的蕴含推理过程的Path；
咱们应用投票的形式抉择最有可能的正确答案；
将蕴含这个正确答案的所有Path用来优化LLM。

你可能曾经发现这个办法失去的答案并不一定是正确的答案。作者通过试验得出了两个重要论断：

答案的正确率和它的置信度是高度相干的，也就是说通过投票失去的答案很有可能是生成的答案中最正确的那个；
即便答案是谬误的，将它们退出到训练数据中也有助于模型的训练。

在失去了推理Path之后，作者依据这个Path构建了四种不同的输出数据，它们别离是：

规范的思维链提醒，即构建（问题，思维链，答案）三元对；
传统的提醒学习，即只有问题和答案；
输出是问题，增加“Let's think step by step”提醒，让模型预测推理步骤；
传统的QA，即输出问题，预测答案。

最初，为了丰盛数据集，作者提出了两个计划来裁减数据：一是随机组合两个问题，而后让模型生成新的问题；二是让模型生成推理步骤，并将它退出到训练集中。

2.3 了解图表能力

因为GPT-4是反对图像格式的图表输出的，OpenAI驰名的多模态算法CLIP[8]讲的是咱们能够通过比照学习将图像和文本映射到同一特色空间，如图12。那么联合CLIP的图像编码器便能够实现GPT-4的图像输出，这时咱们须要训练一个能够和GPT的文字特色对齐的图像编码器，而后将CLIP的图像编码器的输入作为图像token，最初再加一个embedding层将这个token编码为GPT-4的特征向量。

图12：CLIP的构造，它通过比照学习将图像和文本投影到雷同的特色空间

GPT-4除了能够了解图2中这种照片的例子，最神奇的是GPT-4还能够了解图13这种蕴含了很多细节的学术图片。因为在一个学术图片中，图中代指的符号，指标之间的地位关系都是非常重要的，如果GPT-4仅仅通过一个图像编码就能捕捉这些细节信息，那么这个图像编码器肯定也展现出了十分强的涌现能力，这个图像编码器也大概率是千亿规模的参数量。

图13：GPT-4具备了解学术图像中具体细节的能力。

GPT-4的多模态能力还有一种可能是相似多模态大语言模型（Multimodel Large Language Model，MLLM）。其中微软的KOSMOS-1展现了和GPT-4相似的多模态语言模型的能力，KOSMOS-1在多模态问答上也展现出了十分强的涌现能力，如图14。KOSMOS-1是一个基于Transformer解码器的多模态模型，它将不同模态的数据拼接到一起，例如<s>和</s>示意文本输出，<image>和<\image>示意图像输出，其中图像嵌入应用的是微软的METALM[13]计算失去的特征向量。咱们揣测GPT-4有可能借鉴了KOSMO-1S的思维，而后联合了OpenAI本身的一些多模态的工作。

图14：微软的KOSMOS-1涌现出了十分强的图像理解能力

对于GPT-4的多模态的更多技术细节，咱们能够等GPT-4的图像接口凋谢之后多多测试能力发现。

2.4 更平安的输入

现有的深度学习模型的思维均是应用大模型拟合训练集，对于一个生成模型来说，它的输入内容并不是齐全可控的，GPT-4也不例外。GPT-4的技术报告中指出文本模型会存在上面几类的危险输入，例如幻觉、无害内容、歧视、虚伪信息、暴力、隐衷、网络安全等。GPT-4做了大量工作来缓解这个问题。

GPT-4的第一个缓解危险输入的问题是延聘了50余名来自不同领域专家表演红队进行反抗测试。红队的工作是提出有危险性的问题，以测试GPT-4给出的输入，并尝试攻克它。通过领域专家的反抗，OpenAI也采集了大量不同方向的领域专家数据来晋升GPT-4的安全性。

2.4.1 幻觉

幻觉（hallicination）是生成模型都十分难以解决的问题，它指的是模型产生的荒诞的或者不实在的内容，也就是不苟言笑的胡言乱语。随着模型生成的内容语句越来越通顺，内容越来越具备说服力，那么这种幻觉行为将是特地无害的。模型产生幻觉能够演绎为上面几个起因：

数据偏差：训练集可能存在某些偏差，例如数据的的确，谬误可能会影响模型对于自然语言的了解；
数据稠密：训练集可能在某一方面数据比拟少，导致模型在这一方面生成的能力不可控；
模型构造：模型的构造以及参数量可能会影响模型的泛化能力和示意能力，导致模型在某些方面产生幻觉的景象。

GPT-4采纳了两个策略来解决这个问题：

第一种办法是利用ChatGPT的数据进行训练。这个办法的长处是ChatGPT在过后曾经具备了肯定水平回绝生成无害内容的能力，比在网上爬取的数据具备更高的可靠性。但它的问题是可能会将ChatGPT的问题继承到GPT-4中。而且依附一个模型的生成内容作为另一个模型的训练数据，可能会导致模型的过拟合。

第二种办法是采纳NLP技术来检测模型产生的幻觉样本，包含主动评估和人工评估。这个办法的长处是能够无效的检测和纠正模型产生的幻觉问题。它的毛病是依附主动评估的办法可能会因为评估模型的缺点漏掉一些幻觉样本，而人工评估的最大问题是人工成本是十分昂扬的。

在幻觉检测方面，Meta有着十分重要的奉献。一方面他们提出了幻觉检测工作并制作了针对这个工作的幻觉检测数据集HADES[15]，另一方面他们提出了一个幻觉检测办法 [16]，这个办法通过合成幻觉数据来对预训练模型进行微调。该模型能够检测一个句子中呈现的幻觉词，来对生成内容的真实性进行评估，从而加重幻觉呈现的概率。图15是该办法在机器翻译中的一个例子，标签为1的局部对应了生成的幻觉内容。这里猜想OpenAI可能采纳了和Meta相似的办法或数据。

图15：FAIR提出的幻觉检测办法在机器翻译中的示例

具体的讲，OpenAI设计了一个多步骤的过程，应用GPT-4自身来生成是否有幻觉的比拟数据，并将它们并入到图6步骤2的处分模型的训练集中：

将提醒p输出到GPT-4中并失去一个响应r1；
将p和r1输出到GPT-4中，并批示它列出所有的幻觉token。如果没有幻觉，则持续生成，直到有它列出幻觉h1；
将p，r1和h1输出到GPT-4中，并批示它生成一个没有幻觉的响应r2；
将p和r2输出到GPT-4中，让它列出所有的幻觉token，如果没有检测到幻觉，则能够将r1和r2作为一个比照样本对放入处分模型的训练集中了。

2.4.2 其它问题

对于可能呈现的其它危险输入，OpenAI并没有具体的介绍它的技术计划，不过从他们的技术计划中，咱们能够看出他们大略应用了上面几类办法：

应用RBRM来检测可能呈现的危险；
通过提醒学习让模型学习回绝答复此类问题；
利用红队发现这些可能存在的问题；
过滤训练数据，删除可能登程危险问题的样本；
训练处分模型，让模型惩办有危害的输入内容；

2.5 编程能力

GPT-4在编程能力上比ChatGPT有了微小的晋升，一方面他可能因为思维链把握了更强的逻辑剖析能力，另一方面它很有可能借鉴了OpenAI驰名的代码生成算法CodeX[3]。CodeX是GPT-3在代码生成畛域的衍生版本，也是Copilot插件背地的根底算法。CodeX采纳了GPT系列的Decoder-only的架构体系，模型的参数量有从12M到12B等多个不同的版本。CodeX的训练分成预训练和微调两个阶段。

在预训练阶段，OpenAI首先从Github上爬取了大量的Python文件，通过荡涤后失去了一个大小为159GB的训练集。因为CodeX是一个代码生成模型，所以它并没有应用GPT-3训练好的权重，也没有齐全照搬GPT-3的模型超参，而是从新训练了一个代码生成模型。

在微调阶段，OpenAI从比赛网站，面试网站，Github的单元测试脚本中收集了大概40000条数据。在评估代码正确性上，CodeX并没有应用传统的BLEU分数，而是应用了代码可能通过多少比例的单元测试作为评估规范，并建设了评估测试集HumanEval和评估规范pass@k。

为了防止数据泄露，HumanEval的数据全副是由人类亲自结构的，总共蕴含164个题目和大量的测试用例。HumanEval将每个函数划分为四类，即函数签名（function signature），函数正文，函数主体以及单元测试样本组成。在进行提醒学习时，函数签名和函数正文作为输出的提醒，函数主体作为要求的输入，单元测试用于评估生成代码的成果。

CodeX的评估标注和Leetcode相似，即有多少比例的测试用例通过测试了，CodeX的评估规范pass@k示意从模型的所有生成答案中随机抽取k个，从这k个答案里失去正确答案的概率。它的计算形式如式(1)。其中n是每个问题生成的答案，k是从n个答案中随机抽取的k个，c是n个答案里通过单元测试的答案数。

CodeX和GPT-4都是GPT-3的下一代模型，让GPT-4应用CodeX现成的思维和数据，并进步模型的编程能力，是再正当不过的工作了。

2.6 多语言能力

对于GPT-4的在其它语种上的能力的大幅晋升，OpenAI并没有给出介绍，我也没有查到相干解释。这里我依据目前的技术积攒，猜想一下OpenAI可能应用的技术计划：

晋升了其它语种的训练数据；
更大规模的模型让GPT-4在小语种上涌现了更多的能力；
退出了针对小语种的工作，例如利用现有平行语料构建基于提醒学习的机器翻译工作，应用机器翻译引擎将局部数据翻译成小语种等。

这一部分的相干材料的确不多，也欢送大家在评论区给出本人的猜想。

2.7 长序列能力

这里的长序列蕴含两个方面，一方面是GPT-4是反对多轮对话的，另一方面是GPT-4反对更长的输出数据，上面咱们来探讨它们可能应用的技术。

2.7.1 多轮对话

ChatGPT和GPT-4都反对间断对话，但OpenAI始终也没有给出间断对话能力的背地技术计划。如果在每一轮对话时都粗犷的把之前的对话从新作为输出提供给模型。尽管实践上讲是行得通的，但这种形式的最大问题是随着对话轮数的增多，输出的数据也会疾速减少，进而导致ChatGPT或者GPT-4的预测速度越来越慢，然而我在应用ChatGPT和GPT-4的多轮对话时并没有发现这种速度逐步变慢的景象。

如果要从模型角度解决这个问题，咱们恰好有一个算法能够解决这个问题，它就是Transformer-XL[10]。Transformer-XL的重要改良是提出了片段递归的机制，如图16。片段递归机制相似于Transformer和RNN的结合体，它的核心思想是对于一个长度不限的变长数据，在计算的时候也是固定每个片段的长度并计算这个片段的特色，然在计算下个片段时将后面片段的特色加到以后片段上，从而让模型能够解决任意长度的特色。

图16：Transformer-XL的片段递归机制

反馈到ChatGPT和GPT-4的多轮对话中，我揣测OpenAI借鉴了Transformer-XL的片段递归的思维。即GPT-4而后在进行第$t$轮的计算时，会将缓存的第t-1轮的特色和第t轮的特色相加，独特用于以后轮次的计算。因为第t-1轮也思考了第t-2轮的特色，实践上这个形式能够在不影响预测工夫的前提下取得之前很多轮之前的对话内容。

2.7.2 长序列输出

传统的Transformer并不善于解决长序列问题，因为输出长度为n的Transformer的复杂度为O(n^2)。Transformer的默认输出长度是512，对于长度大于512的输出数据Transformer的解决方案是将它拆分成多个长度为512的文本块，然而这种会造成上下文碎片的问题，上一节介绍的Transformer-XL便是用来解决这个问题的。

这里咱们介绍OpenAI自家的用来解决长序列输出的算法：Sparse Transformer[11]，因为GPT-3就是应用的一般Transformer和Sparse Transformer的混合模式，所以Sparse Transformer也是十分有可能被GPT-4用来解决长输出文本的一个模型，但它和一般Transformer是如何混合的就不得而知了。Sparse Transformer的特点是只关注Top-k个奉献最大的特色的状态，它应用稠密注意力机制代替了Transformer的密集注意力，将计算注意力的复杂度降到了O(n\sqrt n)。传统Transformer的密集注意力核被合成为了跨步注意力（Stried Attention）和固定注意力（Fixed Attention），每个注意力核又分为行注意力核和列注意力核。合成后的注意力核都是稠密的，因而大幅升高了模型的复杂度，如图17。

图17：密集注意力和稠密注意力

因为GPT-4反对更长序列的数据，我在这里也列出了用于高效解决长数据的Transformer的两个变体。因为GPT-4的技术报告太过点到为止，到底GPT-4的网络结构如何，咱们只能期待OpenAI的官网颁布了。

2.8 技术计划总结

这一节咱们探讨了很多技术计划，有的具备比拟高的可信度，有的则猜想程度较高。上面这个表给出了各个计划的可信度（从1到5逐步增高）。

涌现能力	思维链	自晋升	CLIP	KOSMOS-1	CodeX	XLM	Trans-XL	Sparse Transf
5	5	3	3	3	4	1	1	4

依据咱们的上述揣测，咱们能够猜想GPT-4的技术计划大抵如下：

第一阶段: 搭建多模态预训练模型，并进行微调，这一阶段次要目标是依据爬取的海量数据训练具备肯定能力的初版GPT-4，训练形式相似GPT-3。它的工作重点有两个：一是仿照KOSMOS-1或是其它多模态模型搭建多模态预训练模型，应用Transformer-XL等解决长文本的高复杂度问题；二是收集数据，蕴含海量爬取数据，单模态，多模态，传统提醒学习数据，思维链提醒学习数据，代码数据等对模型进行训练。

第二阶段：GPT-4行为对齐，这一阶段的次要目标是依据人工打标实现模型行为与人类行为的对齐，削弱模型的风险性。这一阶段须要产出的模型有两个，一个是依据专家常识设计基于规定的处分模型RBRM，另一个是依据人工打标的数据，幻觉检测模型的产出数据训练基于深度学习的处分模型RM。

第三阶段：应用RBRM和RM作为处分函数，应用RLHF训练模型。第二阶段和第三阶段的训练形式相似ChatGPT。

第四阶段：模型自晋升，GPT-4的训练可能是一个循环迭代，一直提醒的训练过程。在这一阶段，GPT-4会主动生成更多数据，例如应用模型自晋升产出的训练数据，专家红队反馈的测试案例等，应用这些数据返回第一阶段再对模型进行训练。

3. GPT-4的倒退方向

最近我也将GPT-4和ChatGPT利用到了日常工作中，粗浅的被GPT-4弱小的能力所震撼。它不仅能辅助我实现日常的编程，文章撰写工作，也可能帮我解决一些日常琐事，大幅晋升了我的工作效率。对于GPT-4的各种赞叹与批评的文章网上已不可胜数，我在这里联合咱们剖析的技术计划，探讨一下GPT-4为了的倒退方向，或者说是预测下GPT-5可能的样子。

3.1 GPT-4的优化方向

只管GPT-4在文本生成，代码生成，图像了解，逻辑推理能力展示了弱小的能力，但它仍旧有很大的提高空间的，将来的工作可能有上面几个重点方向：

GPT-4当初的应用老本还是十分高的，与GPT-4进行一轮对话的老本大概在1元左右。ChatGPT的保护老本每天就有将近100万美元，咱们预测GPT-4的参数量可能将近万亿规模，由此揣测它的保护老本可能在500万美元左右。如何轻量化模型，让GPT-4可能被更多人应用，甚至让更多人可能训练本人的GPT-4将是将来一段时间都会钻研的方向。
GPT-4并不是相对平安的，GPT-4仍旧具备幻觉问题。GPT-4的幻觉检测，红队反抗，RBRM等不是解决平安问题的最终计划。尽管说没有相对平安的零碎，但OpenAI曾经还会在安全性上加大投入，以加重他们可能面临的法律危险。
GPT-4还是个离线模型，GPT-4不能代替搜索引擎的一个重要起因是它的常识并不是实时更新的。它的常识程度取决于它爬取数据的截止日期，这将使得它无奈解决截止日期之后呈现的新闻，概念，事件等。
GPT-4还是多模态的初探，多模态和LLM可能是将来几年AGI最重要的两个方向，OpenAI自身也有很多在多模态方向十分精彩的工作。如何进一步开掘GPT-4在多模态方向的能力，波及更多模态，更多利用将是OpenAI接下来的重点工作。

3.2 GPT-4的利用

GPT-4凭借其弱小的生成能力和逻辑推理能力，可能极大的影响咱们的工作形式。置信这篇文章的读者很多是从事算法相干的科研和工作的人，我激励每个人都用上GPT-4哪怕是ChatGPT，那么GPT-4的哪些性能对咱们十分有帮忙呢。这里我依据我的应用教训，列出几个我认为比拟有帮忙的方向：

撰写性能代码，让GPT-4编写一个满足特定性能简单框架可能须要你向其提供简单的提醒，并且你也须要核查它生成的代码。然而如果让GPT-4实现一些难度较低的性能函数，例如搭建一个网络，或是实现一个功能性函数，GPT-4生成的代码的可用性还是十分高的。
做文本润色，作为一个技术研发人员，咱们的文笔可能并不好，这时候咱们能够应用GPT-4帮咱们对咱们写的文章做润色。尤其是当咱们用英语写论文或者邮件时，GPT-4能帮咱们解决Chinglish的问题。
浏览论文，GPT-4不仅是一个十分棒的机器翻译工具，经试用，它翻译的成果在专业性，连贯性等远超传统的机器翻译模型。此外GPT-4还能够做一些总结，概括，提取类的工作，能让咱们疾速理解一篇论文的核心技术。基于ChatGPT制作的ChatPDF是咱们浏览论文有个十分得力的助手，图18是我应用ChatGPT帮忙我浏览GPT-4的生成内容。

图18：ChatPDF依据GPT-4的技术报告生成的GPT-4在进步安全性上做的工作
日常工作，GPT-4十分善于写一些官网通告，发言稿，感谢信之类的内容，也十分善于做一些总结概括类的工作，它能够在这些方面进步咱们的人效。对于没有思路的事件，我也会尝试问一下GPT-4，它常常可能帮我关上思路。

留神GPT-4并没有彻底解决幻觉等安全性问题，面对GPT-4生成的内容，咱们最好在应用之前进行严格的审核，否则可能会产生一些不可解释的问题。也是因为这个起因，GPT-4并不能取代从事这方面的业余工作人员，因为在GPT-4的安全性问题解决之前，始终须要专业人士为其把关，而GPT-4的安全性问题可能将会随同生成模型的整个生命周期。

4. 其它LLM

随着ChatGPT和GPT-4的提出，国内外的公司疾速跟进，掀起了一股LLM模型的研发热潮，也有很多公司提出了本人的LLM，如图19。

![图19：LLM的最新进展[18]](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/26d5983df95...)
图19：LLM的最新进展[18]

其中国内具备代表性的工作有上面这些工作。

百度的文心一言：百度的文心一言（[](https://www.oschina.net/action/visit/ad?id=1191)ERNIE-Bot）是国内最早跟进的预训练大模型，然而百度对他们的工作技术却始终守口如瓶。不过从他的演示demo以及很多测试人员的测试成果来看，文心一言像是百度很多AI工作的工程化组合；
阿里的通义千问：通义千问是一个用Transformer-XL搭建的，领有20亿参数的文本生成模型。依据拿到邀请码的网友反馈来看，通义千问的文本生成成果略差于文心一言。
商汤的日日新：从发布会的展现成果来看，商汤的日日新是目前国内最好的LLM，甚至达到了和ChatGPT相似的成果。日日新蕴含“磋商”，“秒画”“如影”“琼宇”“格物”五个次要性能，其中和GPT-4对齐的是“磋商”。
清华大学的GLM：GLM[17]是清华和智谱AI联合推出的一个应用英语和汉语训练的开源双语语言模型，最大参数规模达到了1300亿，GLM-130B的成果介于GPT-3和ChatGPT之间。GLM后续还推出了ChatGLM以及能够在单机运行和微调的GLM-6B，是目前成果最好的开源中文预训练大模型。
复旦大学的MOSS：MOSS是复旦大学NLP实验室的邱锡鹏老师团队，并与近期开源了相干代码。从目前成果来看，MOSS并不十分成熟，但可喜的是邱老师的团队还始终在对MOSS进行优化。

比拟遗憾的是国内的很多模型并没有凋谢公测，这里也蹲一个国内模型的邀请码，以给出更全面的测评。

不仅国内疾速跟进，国外的头部公司也推出了本人的LLM，其中具备代表性的有：

MetaAI的LLaMA：LLaMA[19]的参数量有70亿，130亿，330亿和650亿四种规模。不同于OpenAI的是，MetaAI开源了它们的代码和模型，并反对单机的部署。尽管LLaMA的成果不如GPT-4，但他开源以及单机可运行的个性也吸引了很多机构和集体的二次开发。
谷歌的PaLM和LaMDA：PaLM[20]是谷歌提出的构造相似GPT系列，总参数量达到5400亿的语言模型，谷歌在最近又推出了联合图像能力的多模态模型PaLM-E [21]。LaMDA[22]是谷歌推出的用于生成更天然，更具兽性的语言模型，具备更靠近人类的表达方式，LaMDA在GPT-3的根底上进行了改良，减少了更多的对话场景和情感理解能力，能更好的模仿人类的对话和思考。甚至谷歌的研究员 Blake Lemoine 在测试了LaMDA一段时间后感叹：LaMDA可能曾经具备人格了。
Anthropic的Claude：Anthropic是由OpenAI的到职员工成立，失去谷歌研发反对的一个人工智能公司。它们最近也推出了它们的LLM：Claude。目前Cluade的成果略强于ChatGPT，但显著弱于GPT-4。

除了下面介绍的，国外的LLM还有BigScience的BLOOM，斯坦福的Alpaca，下面介绍过的微软的METALM，KOSMOS-1等，国内的华为的盘古，腾讯的WeLM等等。除了这些通用模型，LLM也被用在细分畛域，例如医学畛域的HuaTuo[23]，金融畛域的BloombergGPT[24]等。

5. 总结

GPT-4到底会不会带来第四次工业革命，这是一个须要工夫验证的话题，我也没有资格在这给出论断，但GPT-4对与我集体的影响是微小的。首先，它肯定水平上撼动了我对传统人工智能的了解，就像宏观物理的很多定理在宏观物理上是不成立的，我在传统人工智能上积攒的很多教训放在GPT-4里也是不成立的。它展现出的弱小的零样本学习能力，以及更高阶的能力是远远超出我对深度学习的传统认知的。其次，GPT-4以及ChatGPT正成为我日常工作中最得力的助手，在撰写这篇文章时GPT-4也提供了十分大的帮忙，它不仅能够帮忙我写代码，改文章，甚至还能帮我解决一些非工作的问题。最初，如雨后春笋般涌现的诸多不同的大模型又让我对日益看衰的深度学习注入了新的信念和生机。

对于GPT-4这门技术，我倡议每个人都要去理解并学会应用它。不论你的工作是否和计算机相关，它都会给你带来一些帮忙，哪怕你是个厨子，它都可能给你生成一份美味的菜谱。在应用GPT-4时，咱们也要感性的对待它生成的内容，只有GPT-4有一丝的危险问题，咱们就不能放松对它的审核，以防幻觉问题给咱们造成损失。

在将来的一段时间，GPT-4肯定会给咱们带来诸多的影响。首先，互联网上会疾速涌现大量应用GPT-4生成的咱们无奈辨别的内容，公众会不会被对立的GPT-4的行为模式所影响是值得沉思的。其次，GPT-4将极大水平解放某些工作的生产力，甚至能够代替这些工作，咱们能不能抓住这个时机，在这个互卷的环境里看到新的机会十分重要。最初，GPT-4将以怎么的模式影响到每一个人都是不同的，GPT-4如果真的带来了AGI，我心愿我的好友们你们都不要错过。

Reference

[1] https://cdn.openai.com/papers/gpt-4.pdf
[2] https://zhuanlan.zhihu.com/p/614340292
[3] Chen M, Tworek J, Jun H, et al. Evaluating large language models trained on code[J]. arXiv preprint arXiv:2107.03374, 2021.
[4] Bai, Yuntao, et al. "Training a helpful and harmless assistant with reinforcement learning from human feedback." _arXiv preprint arXiv:2204.05862_ (2022).
[5] Wei J, Tay Y, Bommasani R, et al. Emergent abilities of large language models[J]. arXiv preprint arXiv:2206.07682, 2022.
[6] Wei J, Wang X, Schuurmans D, et al. Chain of thought prompting elicits reasoning in large language models[J]. arXiv preprint arXiv:2201.11903, 2022.
[7] Huang J, Gu S S, Hou L, et al. Large language models can self-improve[J]. arXiv preprint arXiv:2210.11610, 2022.
[8] Radford, Alec, et al. "Learning transferable visual models from natural language supervision." _International Conference on Machine Learning_. PMLR, 2021.
[9] Guillaume Lample and Alexis Conneau. Cross-lingual language model pretraining. _arXiv preprint arXiv:1901.07291_, 2019.
[10] Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V.Le, and Ruslan Salakhutdinov. Transformer-XL: Attentive language models beyond a fixed-length context. _arXiv preprint arXiv:1901.02860_, 2019.
[11] Rewon Child, Scott Gray, Alec Radford, and Ilya Sutskever. Generating long sequences with sparse transformers. _arXiv preprint arXiv:1904.10509_, 2019.
[12] Huang, Shaohan, et al. "Language is not all you need: Aligning perception with language models." _arXiv preprint arXiv:2302.14045_ (2023).
[13] Hao, Yaru, et al. "Language models are general-purpose interfaces." _arXiv preprint arXiv:2206.06336_ (2022).
[14] Zhang, Zhuosheng, et al. "Multimodal chain-of-thought reasoning in language models." _arXiv preprint arXiv:2302.00923_ (2023).
[15] Liu, Tianyu, et al. "A token-level reference-free hallucination detection benchmark for free-form text generation." _arXiv preprint arXiv:2104.08704_ (2021).
[16] Zhou, Chunting, et al. "Detecting hallucinated content in conditional neural sequence generation." _arXiv preprint arXiv:2011.02593_ (2020).
[17] Du, Zhengxiao, et al. "GLM: General language model pretraining with autoregressive blank infilling." _Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)_ . 2022.
[18] Zhao, Wayne Xin, et al. "A Survey of Large Language Models." _arXiv preprint arXiv:2303.18223_ (2023).
[19] Touvron, Hugo, et al. "Llama: Open and efficient foundation language models." _arXiv preprint arXiv:2302.13971_ (2023).
[20] Chowdhery, Aakanksha, et al. "Palm: Scaling language modeling with pathways." _arXiv preprint arXiv:2204.02311_ (2022).
[21] Driess, Danny, et al. "Palm-e: An embodied multimodal language model." _arXiv preprint arXiv:2303.03378_ (2023).
[22] Thoppilan, Romal, et al. "Lamda: Language models for dialog applications." _arXiv preprint arXiv:2201.08239_ (2022).
[23] Wang, Haochun, et al. "HuaTuo: Tuning LLaMA Model with Chinese Medical Knowledge." _arXiv preprint arXiv:2304.06975_ (2023).
[24] Wu, Shijie, et al. "BloombergGPT: A Large Language Model for Finance." _arXiv preprint arXiv:2303.17564_ (2023).
[25] Bubeck, Sébastien, et al. "Sparks of artificial general intelligence: Early experiments with gpt-4." _arXiv preprint arXiv:2303.12712_ (2023).
[26] Lin, Stephanie, Jacob Hilton, and Owain Evans. "Truthfulqa: Measuring how models mimic human falsehoods." _arXiv preprint arXiv:2109.07958_ (2021).