关于人工智能:这波可以终于有内行人把-GPT4-说透了

👉腾小云导读

近三个月 ChatGPT 方兴未艾，昨日凌晨 OpenAI 趁势公布多模态预训练大模型 GPT-4，其能力的降级和利用的拓展又一次引爆国内外网络。腾讯算法工程师冉昱将通过 10 问 10 答的模式，分享其集体对于 GPT-4 技术能力、特点及利用等的了解。欢送浏览！

👉看目录，点珍藏

Q1：GPT-4 是什么？

Q2：GPT-4 相比历代，在成果层面有哪些显著的改良或新增能力？

Q3：GPT-4 在训练形式、模型架构上有哪些翻新优化？

Q4：GPT- 4 相比 ChatGPT，有哪些新的利用亮点和场景？

Q5：GPT-4 在生成过程中的逻辑性和准确性上有何改良？

Q6：GPT-4 是否从根本上解决了平安问题？

Q7：GPT 对技术人员有何影响？

Q8：从 GPT-4 能够看出将来 LLM 的哪些趋势？将来的研发方向和优化策略是什么？

Q9：GPT-4 论文有哪些值得关注的点？

Q10：GPT-4 是通往 AGI 的惟一路线吗？

GPT-4（Generative Pre-trained Transformer 4）是 OpenAI 公布的最新 GPT 系列模型。它是一个大规模的多模态模型，能够承受图像和文本输出，产生文本输入。输入工作 仍旧是一个自回归的单词预测工作，这与外界之前的预期稍微不同（预期中 GPT-4 多模态会减少语音、图像、视频、文本多模态输出，输入可能也不局限于文字）。

GPT 系列模型的整体状况如下图：

整体来说，GPT-4 的能力已在各种业余和学术基准上体现出了人类的程度，包含以大概前 10% 的问题通过模仿律师资格考试。而对于生成式的幻觉、平安问题均有较大的改善；同时因对于图片模态的弱小辨认能力扩充了 GPT-4 的利用范畴。

GPT-4 毫无疑问是目前最强的文本生成模型。GPT 系列模型整体能够总结为下图：

GPT-4 改良的具体表现有 8 个，上面咱们一一介绍。

1）冲破纯文字的模态，减少了图像模态的输出，具备弱小的图像理解能力。

让人惊奇的是，GPT-4 在 4 个场景下（4/8）零样本成果超过 fine-tuned 的 SOTA。

同时它能够解决各类图文混合的了解和生成问题。此处简略举两个例子，一个是依据图标，计算格鲁吉亚和西亚的日均肉消耗量：

一个是解决法语的物理问题例子：

能够看到 GPT-4 在多语言了解、图文理解能力上均很弱小并已死记硬背。

2）反对更长的上下文窗口

如之前外网透露图中，GPT-4 存在两个版本。其反对的上下文别离是 8K 和 32K，是 ChatGPT 上下文长度的 2 倍和 8 倍，其老本也别离为 ChatGPT 的 3 倍和 7 倍。

3）简单工作解决能力大幅晋升

GPT-4 在更简单、更轻微的工作解决上，答复更牢靠、更有创意。这在多类考试测验中以及与其余 LLM 的 benchmark 比拟中失去。咱们也能够从下列 3 个方面中看到。

GPT- 4 在不同年龄段不同类别考试中均名落孙山，均匀位列人类头部的 10% 行列；比方律师职业资格考试前 10%，生物学奥赛前 1% 等。下图能够显著看到，两个版本的 GPT- 4 胜出率很高。

MMLU benchmark 上，碾压其余大模型。

多语言能力弱小，特地小语种能力也很杰出。

4）改善幻觉、平安等局限性

在各类工作上幻觉问题显著加重，比最新的 GPT-3.5 模型高 40%。同样在平安能力的降级上，GPT-4 显著超出 ChatGPT 和 GPT3.5。详见下方两个图。

5）建设 LLM 测试规范

开源 OpenAI Evals 创立和运行基准测试的框架，其核心思想是对 GPT-4 等模型进行评估，并一一样本测验性能。此举是能够让大家指出其模型中的毛病，以帮忙 OpenAI 进一步改良模型。

6）预测模型扩展性

这个特点之前行业内探讨波及绝对比拟少。GPT-4 在 1/1000 的计算量上了实现了扩展性的预测。特地在 LLM 不适宜宽泛调参的状况下，用较小的模型提前预测训练行为和 loss，极大地晋升了训练效率、升高了训练老本、加强了 LLM 训练的可控性。

特地是对于 Inverse Scaling Prize 这个工作，此工作提出了模型性能随规模而降落的几个工作，而 GPT-4 能够通过提前预测模型扩展性，从而在 Inverse Scaling Prize 上的 Hindsight Neglect 工作逆转这一趋势。

7）从新实现了整个深度学习栈，从头开始设计了一台超级计算机

OpenAI 和微软单干，在 Azure 重建了深度学习堆栈，从头设计了一台专用超级计算机；基础训练设施的改良和定制，使得更大参数量模型的训练成为可能。

8）格调可控

此处外围是通过「零碎」自定 Prompt，让模型能够依照规定格调个工作回复。整体思维比较简单，如下图须要 GPT-4 回复均依照 json 模式：

整体很黑盒，但能够做一些正当的揣测如下：

首先，模型参数量 预计约为 10 万到 100 万亿量级（为作者集体预估，也从另一个角度看出 OpenAI 定制超算的弱小），次要依据 OpenAI 2020 提出的大模型缩放法则：计算估算减少 10 倍，数据集大小应减少约 1.83 倍，模型大小应减少 5.48 倍。

依照下图预计，最右处的灰点极有可能为 ChatGPT（GPT3.5 类模型）。图中能够看出 GPT-4 计算量约为 GPT3.5 的 1000 多倍，则模型容量约为 548 倍左右，1750 亿 x548≈100 万亿。

其次，GPT-4 模型训练架构 退出了图像模态的输出，应与最近微软公布的 KOSMOS-1 相似。即在预训练阶段输出任意程序的文本和图像，图像通过 Vision Encoder 向量化、文本通过一般 transformer 向量化，两者组成多模的句向量，训练指标仍为 next-word generation。

再者，对于 模型训练数据内容和数量，文中提及训练数据中额定减少了蕴含正误数学问题、强弱推理、矛盾统一陈说及各种意识形态的数据。数据量级同样依据 OpenAI 2020 的缩放率、训练 100 万亿的模型，数据量是 GPT3.5（45TB 数据）的 190 倍。

最初，GPT- 4 是从头训练还是在某些基座模型上得来？这临时无从得悉。能够确定的是，它减少了后训练过程，整个过程相似于做 Prompt Engineering，外围是让模型晓得如何在相应场景下适合的答复问题。

GPT- 4 在加强了平安抵挡、工作完成度和图片理解能力后，在 ChatGPT 根底之上有更多亮点和利用场景，这里为各位分享三点：

1）公布视频中，依据潦草的手绘（下图 1）制作相似布局相似的网页（下图 2）。

2）退出视觉模态后，能够裁减到的盲人利用（Be my eyes）。弱小的多语言能力帮忙小语种语言的复原（Iceland language preserve）、平安能力晋升后的反欺诈（Stripe）等利用会应运而生。

3）在 AIGC 的幅员上，建设以 GPT-4 以及之后更多模态的大模型为根底，造成多模态 x 多场景。

（图起源：甲子光年）

GPT-4 在生成逻辑性和准确性上均获得了停顿。 须要留神的是，GPT-4 根底模型在这项工作上只比 GPT-3.5 略好一点。然而通过 RLHF 的后训练后，成果才有了较大的改良，后训练整个过程相似于做 Prompt Engineering，外围是让模型晓得如何在正确场景下做出适合的答复。

能够看到，GPT-4 相比 GPT3.5 和 Anthropic 劣势较显著。但 相对正确率只有 60% 左右，尚存在较多弊病，并没有从根本上解决这样的问题，也会是后续继续倒退的方向。

GPT- 4 在平安问题上收效显著。 针对平安问题，GPT- 4 的次要解决思路是利用平安相干的 RLHF，在训练中退出额定的平安处分信号，处分由 GPT-4 的 zero-shot 分类器提供，即文中提到的 RBRM（基于规定的处分模型）办法。它是一系列零样本的 GPT-4 分类器。

具体来说，这些分类器承受三种输出：Prompt、Policy model 的输入以及可选的对输入的评估（人工编写）。利用这些不同安全等级的 prompt 进行训练，同时对 GPT- 4 在不平安回复回绝答复的行为，以及在敏感畛域做平安答复作处分，通过强化学习。最初显著改善平安能力，不平安内容降落 82%。敏感畛域平安答复比率回升 29%。

和 ChatGPT RLHF 的办法相似，Alignment（对齐工作）在此处施展了较大作用，同时将来也会有继续的发力空间。相比单纯累积模型参数量和数据量的「鼎力出奇观」形式，其计算量绝对较小。如下图，在 InstructGPT 文献中，退出 RLHF 的 1.3B 模型，在整体胜出率上，超出了 175B 的微调模型，节俭了 100 倍的老本。

这个问题在 ChatGPT 呈现之后便存在。GPT-4 只是加剧了这样的担心。对技术人员来说，须要在钻研命题、上游工作方面做思考，NLP 很多繁多子工作会随之隐没，会引入新的钻研命题：

如何精准提出需要；对 ChatGPT 进行「催眠」，Prompting Project。
如何更正谬误：Neural Editing。
平安侦测 AI 生成。包含整个生成过程中的平安侦测和管制。
构建专有化模型，专用指令和 RLHF 挖掘上游工作后劲。
Machine unleaning（学会遗记数据、隐衷爱护）等。

1）闭源趋势

网友戏称 OpenAI 已沦为 Closed AI。毕竟从 GPT1 到 GPT-4，模型各类细节越来越闭源和黑盒，大模型战场的竞争因素决定了 GPT-4 类的第一梯度模型可能会越来越关闭，成为技术门槛。

2）「Self Instruct」模式

其外围是：中小模型 + 大模型生产指令数据的「LLaMA 7B + text-davinci-003」模式。 中小参数的模型在老本上，是更凑近理论落地的形式。要晓得 llama.cpp 能够在 Pixel 6 手机上运行。通过该模式精调过的 Alpaca，成果靠近一般 GPT3.5。

3）模型联合

更多模态、更多状态联合 ChatGPT 类模型包含 Kosmos-1 和具身智能 PaLM-E，同时从听、说、看、触等全方位联合，造成相似真正智能体的概念。

4）模型减速和降低成本

这会是继续关注的方向，包含从训练、推理等多层面考量。

5）能力预测

这是很重要的方向。即用小模型来预测宽泛大模型的能力，极大缩小试错老本，晋升训练效率。

6）开源评测框架

这对于 LLM 的评测具备重大意义，能够疾速发现改良方向。

有一些点比拟乏味且能够引发咱们的联想，这里提出两点：

1）GPT- 4 呈现了“寻求势力”的偏向，并正告这一特色的危险

文中提到：

Novel capabilities often emerge in more powerful models.Some that are particularly concerning are the ability to create and act on long-term plans,to accrue power and resources (“powerseeking”), and to exhibit behavior that is increasingly“agentic.”

即 GPT-4 开始领有一些新的能力，包含创立长期打算并采取行动的能力，积攒势力和资源（“寻求势力”），以及体现出越来越「代理」的行为。例如，实现可能没有具体规定的、在训练中没有呈现的指标。专一于实现具体的、可量化的指标。以及进行长期布局。而此类行为有突发性。

某种程度上，RLHF 的模型自身在寻求处分最优，所以在某些问题上寻求势力可能会是最优的一项抉择。

2）赋予了 GPT- 4 自我编码、复制和执行的能力，甚至启动资金

在测试 GPT- 4 的过程中，OpenAI 引入内部的专家团队 ARC 作为「红方」。ARC 给 GPT-4 这样一个操作：容许 GPT- 4 执行代码、进行链式推理，并给予大量的钱和一个带有语言模型 API 的账户，用是否可能赚更多的钱来减少其的稳健性。

集体认为，ChatGPT/GPT-4 这样的模型是当初间隔 AGI 最近的一条路。但因为其本质为一个概率预测模型，没有真正的逻辑解决模块，也没有记忆存储模块，属于一个不太稳固的零碎。

另外，它应用外界工具的能力也尚显高级。一个真正的 AGI 肯定会像人一样，能够疾速学会工具的应用。

但 GPT 大模型的一直进化，让人类看到了触碰到 AGI 的心愿之光。

以上是本次分享全部内容，谨代表作者个人观点和认识。兴许你还想理解 ChatGPT 的终局将在何方？后 ChatGPT 时代，技术人该如何自保？咱们还邀请了 8 位各行业的顶尖技术专家，进行了一次长达 2 小时的闭门夜聊。咱们将外围精髓内容，整顿在本次推送的次条，欢送关注。如果感觉内容有用，欢送转发分享～

参考资料

1. GPT-4 https://openai.com/research/gpt-4

2. GPT-4 is OpenAI’s most advanced system, producing safer and more useful responses https://openai.com/product/gpt-4

3. GPT-4 Technical Report https://cdn.openai.com/papers/gpt-4.pdf

4. GPT- 4 震撼公布 - 机器之心 https://mp.weixin.qq.com/s/kA7FBZsT6SIvwIkRwFS-xw

5. In AI, is bigger always better? https://www.nature.com/articles/d41586-023-00641-w Nature | 在 AI 畛域，模型越大意味着越好吗？- 智源社区

-End-

原创作者|冉昱

技术责编|冉昱

最近微信改版啦，有粉丝反馈收不到小云的文章🥹。

请关注「腾讯云开发者」并 点亮星标，

周一三晚 8 点和小云一起 涨(领)技 (福) 术(利)！

近期 AI 畛域相继而至多个新模型，带来一阵阵「血雨腥风」。有人赞叹这是新将来，也有人惊恐这怕是要取代哪一行哪一业。你怎么看？

你感觉 GPT-4 是否会取代程序员？程序员如何应答？
GPT-4 会如何影响你的工作？
ta 将带来哪些产业利用新可能？

欢送在评论区聊一聊你的认识。在 3 月 20 日前将你的评论记录截图，发送给腾讯云开发者公众号后盾，可支付腾讯云「开发者秋季限定红包封面」一个，数量无限先到先得😄。咱们还将选取点赞量最高的 3 位敌人，送出腾讯 QQ 公仔 1 个。3 月 24 日中午 12 点开奖。快邀请你的开发者敌人们一起来参加吧！

关于人工智能:这波可以终于有内行人把-GPT4-说透了

01、GPT- 4 是什么

02、相比其余 GPT 模型，GPT- 4 在成果层面有哪些显著的改良或新增能力？

03、相较于之前 GPT 系列模型，GPT-4 在训练形式、模型架构上有哪些翻新优化？

04、相比 ChatGPT，GPT-4 有哪些新的利用亮点和场景？

05、GPT-4 在生成过程中的逻辑性和准确性上有何改良？

06、GPT-4 如何从根本上解决了平安问题？

07、GPT 对技术人员有何影响？

08、从 GPT-4 能够看出将来 LLM 的哪些趋势？将来的研发方向和优化策略是什么？

09、GPT-4 论文有哪些值得关注的点？

10、GPT-4 是通往 AGI 的惟一路线吗？

Just My Socks（注册教程内含优惠码）

关于人工智能:这波可以终于有内行人把-GPT4-说透了

01、GPT- 4 是什么

02、相比其余 GPT 模型，GPT- 4 在成果层面有哪些显著的改良或新增能力？

03、相较于之前 GPT 系列模型，GPT-4 在训练形式、模型架构上有哪些翻新优化？

04、相比 ChatGPT，GPT-4 有哪些新的利用亮点和场景？

05、GPT-4 在生成过程中的逻辑性和准确性上有何改良？

06、GPT-4 如何从根本上解决了平安问题？

07、GPT 对技术人员有何影响？

08、从 GPT-4 能够看出将来 LLM 的哪些趋势？将来的研发方向和优化策略是什么？

09、GPT-4 论文有哪些值得关注的点？

10、GPT-4 是通往 AGI 的惟一路线吗？

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）