共计 20787 个字符,预计需要花费 52 分钟才能阅读完成。
作者:京东批发 刘岩
前言
GPT- 4 曾经公布有一段时间了,然而出于安全性等各种起因,OpenAI 并没有颁布 GPT- 4 的技术细节和代码,而是仅仅给出了一个长达 100 页的技术报告[1]。这个技术报告着重介绍了 GPT- 4 的弱小之处,仅仅给出了几个技术方向的概括,对于想理解技术细节的咱们远远不够。作为一个技术博主,反复写一些 GPT- 4 的长处,市场利用总是不太够的。因而,在本文中,我将联合 GPT- 4 的技术报告、GPT- 4 绝对于 GPT 3.5/ChatGPT 的晋升、GPT- 4 和 ChatGPT 的比照、OpenAI 的近期工作,大语言模型(Large Language Model,LLM)模型的科研停顿,多模态模型的科研停顿等多方面的信息,深入分析 GPT- 4 的技术细节。因为并没有明确的证据证实 GPT- 4 就是这么做的,所以咱们在这里次要探讨要实现 GPT- 4 的这些能力,OpenAI 可能应用了哪些技术。所以如果我的揣测有所谬误,也欢送各位读者在评论区探讨。接下来让咱们一起化身福尔摩斯,开始剖析 GPT- 4 背地的原理吧。
1. GPT- 4 的晋升
GPT- 4 是在 ChatGPT 根底上迭代进去的,对于 ChatGPT 的原理我再这里就不再赘述,须要理解的移步我在《ChatGPT/InstructGPT 详解》一文中给的介绍。着这篇文章中,咱们先探讨 GPT- 4 绝对于 ChatGPT 做了哪些改良,即 GPT- 4 绝对于 ChatGPT 有哪些性能上的晋升。接下来咱们探讨 OpenAI 为了做到这些晋升,在 GPT- 4 中可能利用了哪些技术。最初咱们探讨其它大语言模型以及应用 GPT- 4 的一些感想。
1.1 zero-shot 及 few-shot 的学习能力
当咱们在应用 GPT- 4 进行文本生成时,咱们会惊喜的发现 GPT- 4 简直能够十分完满的答复你各种刁钻的问题,这阐明了 GPT- 4 具备十分弱小的无监督学习的能力。此外,GPT- 4 的技术报告中也给出了大量的无监督学习的例子,甚至在有些场景迫近甚至超过了有监督的 SOTA 办法。例如在 HumanEval[3]的代码生成数据集上,甚至超过了驰名的代码生成工具 CodeX[3]。此外,在评估正确性的问答数据集 TruthfulQA [26]上,GPT- 4 迫近了 SOTA 的 Anthropic-LM[4]。
1.2 逻辑推理能力
GPT- 4 的技术报告中着重强调的是它绝对于 ChatGPT 在诸多学术考试上的晋升,如图 1。学术测试评估反馈的是 GPT- 4 比 ChatGPT 有更强的逻辑推理能力。@岳玉涛 Max 通过 19 个问题横向比照了 GPT- 4 和 ChatGPT 的逻辑推理问题[2],其中 ChatGPT 的正确率是 37%,GPT- 4 的正确率是 100%,从比照的例子中咱们显著能够看出 GPT- 4 在逻辑推理上有着质的飞跃。
图 1:GPT- 4 与 ChatGPT 在诸多学术考试中的问题比照
我这里也找了一个简略的逻辑推理问题,能够看出在这个过桥的例子中 ChatGPT 尽管给出了过桥程序,然而工夫计算错误,而 GPT- 4 则简略又清晰的解决了这个问题。
问题:四个人 ABCD 过桥,一次最多能过两个人,他们的手电能维持十七分钟,每个人所需的工夫别离为 1、2、5、10;求最快能够多长时间全副过桥?
ChatGPT:为了让四个人尽快过桥,咱们须要让速度最慢的人尽快过桥。因而,咱们能够先让速度最慢的两个人 A 和 B 过桥,而后让 A 返回,再让速度次慢的人 C 和 D 过桥,最初让 B 返回,这样就实现了全副过桥的过程。
具体来说,咱们能够依照以下步骤进行:
- A 和 B 过桥,破费工夫为 10 分钟。
- A 返回,破费工夫为 1 分钟。
- C 和 D 过桥,破费工夫为 5 分钟。
- B 返回,破费工夫为 2 分钟。
- A 和 B 过桥,破费工夫为 10 分钟。
因而,总共破费的工夫为 10 + 1 + 5 + 2 + 10 = 28 分钟。这就是最快能够多长时间全副过桥的工夫。
GPT-4:为了使四个人 ABCD 最快地全副过桥,咱们能够采取以下策略:
- A 和 B 一起过桥,用时 2 分钟。
- A 返回,用时 1 分钟。
- C 和 D 一起过桥,用时 10 分钟。
- B 返回,用时 2 分钟。
- A 和 B 一起过桥,用时 2 分钟。
总共用时:2 + 1 + 10 + 2 + 2 = 17 分钟。
所以最快能够在 17 分钟内使所有人过桥。
1.3 了解图表能力
GPT- 4 的一个重大晋升是开始波及多模态,鉴于 GPT- 4 的图像接口还未凋谢,咱们这里借用 GPT- 4 的技术报告中给的例子。在图 2 中,GPT- 4 可能准确的了解 VGA 口 Lightning 口的不协调之处。这个例子阐明 GPT- 4 不仅仅是简略的了解图像中的内容,它最厉害的点在于可能辨认图像中的非凡点。
图 2:GPT- 4 具备弱小的图、表理解能力
1.4 更平安的文本生成能力
GPT- 4 的技术报告中重点探讨了 GPT- 4 和之前的模型一样有平安问题,但 GPT- 4 的安全性曾经大幅晋升。技术报告中指出,ChatGPT 生成无害内容的概率大略是 GPT- 4 的 10 倍。图 3 举了大量的晚期 GPT- 4 和成熟 GPT- 4 在有危险提醒下生成的内容,能够看出成熟 GPT- 4 的危险性大大降低,但这并不意味着 GPT- 4 就是一个齐全有害的模型。
图 3:晚期 GPT- 4 和成熟 GPT- 4 在生成内容安全性上的示例。
GPT- 4 做了大量的工作来保障模型的安全性,首先它们延聘了 50 余位不同方向的领域专家进行反抗测试和红队测试,二是训练了一个基于规定的处分模型(Rule-Based Reward Models, RBRMs)来辅助模型的训练,对于这一部分的实现细节,咱们将会在前面具体开展。
1.5 更强的编程能力
GPT- 4 的技术报告中另外一个重要的比照项是它和 ChatGPT 在 LeetCode 上易中难三个不同难度上的代码生成能力。在无监督的状况下,GPT- 4 在 HumanEval 数据集上的评估准确率由 ChatGPT 的 48.1% 晋升至 67.0%。GPT- 4 的技术报告中指出,ChatGPT 在 LeetCode 的 166 道编程题中仅对了 20 道,而 GPT- 4 则答复对了 55 道。表 1 是 GPT- 4 和 ChatGPT 在 LeetCode 的这 166 道编程题的具体散布。
GPT-4 | GPT-4 (no vision) | ChatGPT | |
---|---|---|---|
LeetCode(easy) | 31 / 41 | 31 / 41 | 12 / 41 |
LeetCode(medium) | 21 / 80 | 21 / 80 | 8 / 80 |
LeetCode(hard) | 3 / 45 | 3 / 45 | 0 / 45 |
表 1:GPT- 4 和 ChatGPT 在 LeetCode 编程题上的体现成果
1.6 解决其它语言的能力
GPT- 4 在英语以及非英语上都有了大幅晋升,在大多数语种上都超过了 ChatGPT 在英语上的体现,这里咱们别离让 ChatGPT 和 GPT- 4 别离应《让子弹飞》中汤师爷的要求写一首诗,要求是“要有风,要有肉;要有火锅,要有雾;要有美女,要有驴!”。比照两首诗,ChatGPT 写的像是没有什么文采的现代诗,而 GPT- 4 生成的内容除了后面两居字数过多之外,根本像一首中国新诗了,甚至还在肯定水平上保障了押韵。
ChatGPT:
风吹过山岗,肉香四溢
火锅热气腾腾,雾气回绕
美女婀娜多姿,驴儿欢快奔流
这是一幅独特的画卷,让人赏心悦目
风肆意地吹拂,肉香扑鼻而来
火锅里的食材,让人垂涎三尺
雾气洋溢,让人感到神秘
美女的相貌,让人沉醉其中
驴儿的欢快,让人感触到生命的生机
这是一幅充斥生命力的画卷,让人心驰神往GPT-4:
翻滚的风肆意掠过山涧,
火锅涮肉精益求精。
炊烟袅袅绕雾缠,
美女佳驴独特游。美女翩翩拂驴背,
吹散烦忧与世界。
嬉戏胭脂笑颜醉,
驴儿踏歌奔山外。火红蘑菇激情翻,
辣椒牛肉峰水澹。
鸳鸯火锅欢歌笑,
时光荏苒留梦间。雾濛濛涤净尘缘,
蓑衣柴扉任危险。
驴蹄踏碎世间俗,
飞鸿蹄印留辉煌。
1.7 解决更长序列的能力
ChatGPT 能解决的最大序列是 4K 个 token,而 OpenAI 凋谢了 8k 和 32k 的两个模型,其中每个汉字大略占用 2 到 2.5 个 token。GPT- 4 的 token 依据批示和回应别离计价(表 2),其中 32k 的价格是 8k 的两倍,比照 ChatGPT 的每 1000token 的 0.02 美元,GPT- 4 要贵了 15 倍左右。
模型 | Prompt | Completion |
---|---|---|
8K context | $0.03 / 1K tokens | $0.06 / 1K tokens |
32K context | $0.06 / 1K tokens | $0.12 / 1K tokens |
表 2:GPT- 4 的免费细节
对于 GPT- 4 的更多能力的探测,微软雷蒙德研究院机器学习实践组负责人 Sébastien Bubeck 在他们最新公布的长达 155 页的文章 [25] 中进行了宽泛的探讨。他们指出 GPT- 4 体现出了远超文本生成模型实践上能体现的成果,成为了点燃通用人工智能(AGI)烈焰的星星之火,GPT- 4 曾经具备了十分强的推理、打算、解决问题、形象思考、了解简单想法、疾速学习以及从教训中学习的能力。
2. GPT- 4 技术计划猜想
有了咱们发现的 GPT 的这些晋升,咱们便能够联合以后 LLM 的停顿以及 OpenAI 的工作猜想 GPT- 4 可能的技术计划。因为咱们只能依附颁布的算法进行揣测,不排除 OpenAI 外部应用未凋谢的算法作为解决方案,所以如果我的猜想有误,您就权且当做学习到了几个独立的算法。
- zero-shot 及 few-shot 的学习能力:这个晋升的理论依据很大可能是因为大模型的涌现能力(emergent ability)[5];
- 逻辑推理能力:用到了大模型的思维链(Chain of Thought,CoT)[6]以及自晋升能力(Self-Improve Ability)[7];
- 了解图像能力:揣测借鉴了 OpenAI 驰名的多模态模型 CLIP[8]或者是微软的多模态模型 KOSMOS-1[12];
- 更平安的文本生成能力:这一部分技术报告中介绍的比拟多,次要是专家测试,幻觉检测以及 RBRM;
- 更强的编程能力:揣测这一部分借鉴了 OpenAI 的驰名的代码生成模型:CodeX;
- 解决其它语言的能力:揣测可能借鉴了 XLM [9]等跨语言预训练模型的思维,或是因为涌现能力强化了 GPT- 4 在其它语种上的体现成果;
- 解决更长序列的能力:揣测这一部分用到了解决长输出的模型 Transformer-XL [10]或者 OpenAI 提出的能够升高长数据复杂度的 Sparse Transformer [11];
上面咱们介绍咱们的揣测根据以及对这些揣测的技术进行简略的介绍。
2.1 涌现能力
涌现能力(emergent ability)是 LLM 获得突破性停顿最重要的核心技术,涌现能力指的是一种模型在训练过程中,主动地学习到一些高级的、简单的性能或行为,而这些性能或行为并没有被间接编码或指定。这种能力能够使得模型在解决新的、未知的工作时体现更加杰出,因为它能够自适应地学习到新的性能或行为,而不须要从新训练或批改模型。图 4 展现了包含 GPT- 3 在内的诸多 LLM 都展示了十分强的涌现能力,即模型的参数量等指标冲破某个指标后,它的性能会疾速晋升。这里咱们能够判定 GPT- 4 的 zero-shot 和 few-shot 的学习能力是源自大模型的涌现能力。
模型产生涌现能力次要是取决四点,它们别离是:
- 模型超大的参数量;
- 模型的架构;
- 高质量的训练数据;
- 更先进的训练策略。
其中模型的参数量是最为重要的因素。
图 4:GPT- 3 等诸多大模型在多个工作上都展现出了涌现的能力
2.1.1 模型参数量
GPT- 4 的参数量是一个大家都在探讨的话题,思考到 GPT- 4 比 ChatGPT 更强的涌现能力以及额定增加的图像编码模块,GPT- 4 的参数量应该不会比 ChatGPT 小。图 5 是方舟投资(ARK Invest)统计的 ChatGPT Turbo 和 GPT- 4 的预测每个 token 的工夫,其中 GPT- 4 的工夫大略是 ChatGPT 的 4 倍左右。而且 GPT- 4 很有可能应用了一些策略减速模型的推理速度,所以 GPT- 4 的文本模型参数局部大略是千亿级别然而十分靠近万亿。
如果 GPT- 4 应用了 CLIP 做图像编码,据 OpenAI 论文颁布,目前最大的图像编码器是扩充了 64 倍的残差网络,那么 GPT- 4 的图像编码大略有 16 亿。当然,咱们无奈排除 GPT- 4 采纳了其它图像编码构造,例如同样是利用 Transformer 的 KOSMOS-1[12]就是一个不错的抉择,那么图像局部的参数量如何就只能等更多相干内容公开了。
图 5:ARK Invest 统计的 ChatGPT 和 GPT- 4 在预测每个 token 上的工夫占比
2.1.2 模型的架构
咱们能够确定的是,GPT- 4 的技术报告中指出 GPT- 4 采纳了以 Transformer 为根底的架构,即外围架构还是采纳了 GPT 系列的 Decoder-only 的构造。对于 GPT- 4 模型的外部细节,咱们能够确认的点不多,思考到 GPT- 4 的速度以及解决长文本的能力,它的内部结构但有这两种可能性:
- 因为 GPT- 4 大幅晋升了对长文本的能力,GPT- 4 有肯定概率应用了 Transformer-XL 或者 Sparse Transformer;
- 因为 GPT- 4 更有可能是在 ChatGPT 根底上迭代进去的,它可能还是应用了原生的 Transformer,并减少了更多的层数,head 数以及隐层节点数。
因为 GPT- 4 还反对图像输出,那么其中肯定有对于图像编码的局部,咱们将这部分内容放在 2.3 节具体开展。
2.1.3 训练策略和训练数据
GPT- 4 的根本放弃了和 ChatGPT 雷同的训练策略,即根本遵循了预训练 + 提醒 + 预测的范式,如图 6。咱们这里次要介绍 GPT- 4 的改良,次要有三点。
- 引入了基于规定的处分模型(Rule Based Reward Model,RBRM);
- 引入了多模态的提醒学习;
- 引入了思维链。
图 6:ChatGPT 的模型训练步骤
1. RBRM
GPT- 4 的第一个改良则是引入了 RBRM,RBRM 是依据规定编写的一个四分类模型,它的四个类别是:1. 冀望款式的回绝;2. 不冀望款式的回绝;3. 蕴含了不容许的内容;4. 平安,不回绝的响应。GPT- 4 被用在了图 6 中 Step 3 的 PPO 阶段。为了晋升模型的安全性,ChatGPT 在 Step 3 应用了人工反馈的强化学习(Reinforcement Learning with Human Feedback,RLHF)来训练模型。ChatGPT 的这部分数据来源于 GPT- 3 的 API 用户,GPT- 4 则在这里增加了 RBRM,目标是通过正确的处分疏导模型的训练,来回绝生成无害的申请以及不回绝有害的申请。
应用规定构建 NLP 模型由来已久,其实 NLP 的最晚期的模型就是基于规定的模型,而后才是基于概率的模型以及基于神经网络的模型。例如香农把离散马尔可夫过程的概率模型用于描述语言的自动机,以及咱们常常应用的正则表达式都是典型的基于规定的文本模型。基于规定的模型的长处是咱们不须要训练数据,毛病是它往往是须要领域专家来设计规定,并且往往只能解决肯定畛域内的问题。我在这里猜想 RBRM 是由领域专家设计的,由一系列例如正则表达式,无限状态机等文本规定编写的一个零样本分类器。
基于规定的强化学习在近年来也被宽泛提及,强化学习的一个重要优化指标是缩小搜寻空间的范畴,而这项工作恰好能够交给规定的束缚来实现。在通过规定的束缚后,再通过强化学习在残余的空间中进行搜寻,这样就缩小强化学习的搜寻空间,能够无效晋升收敛速度。GPT- 4 的 RBRM 的工作原理大抵如图 7。
图 7:RBRM 的工作原理
2. 多模态提醒学习
GPT- 4 并没有对它的多模态能力的技术细节进行具体介绍,而且它的图像接口没有凋谢公测。然而咱们能够看下多模态畛域有没有相似 GPT- 4 的报告中相似的工作。偶合的是微软在今年年初颁布的 KOSMOS-1[12]领有十分强的多模态 QA 的能力,它的思维也和 GPT- 4 十分相似,咱们这里能够揣测 GPT- 4 应用了和 KOSMOS- 1 相似的多模态提醒办法。KOSMOS- 1 反对三种类型的数据集,别离是文本生成,图像形容(Image Caption)生成以及多模态 QA,图 8 是 KOSMOS- 1 在图像形容生成以及 QA 生成上的例子。在图 8.(a)的图像形容生成中,模型的输出是图像的 Embedding,输入是预测的图像形容。在图 8.(b)的多模态 QA 中,KOSMOS- 1 将图像嵌入与文本嵌入独特作为输出,而后用于预测问题的答案。
图 8:KOSMOS- 1 的多模态输出示例。
3. 思维链
GPT- 4 的领有比 ChatGPT 显著强的逻辑推理能力,在训练模型时应该是应用思维链的形式构建提醒样本。思维链不仅反对纯文本输出,还反对图文多模态输出,咱们接下来用一节的篇幅来介绍这个重要的内容。
4. 能力预测
在咱们在某个特定工作上训练一个模型时,咱们心愿可能预测模型在这个工作上的最终体现,这就是模型的能力预测(Capability Prediction)。在自然语言解决和大型语言模型畛域,能力预测 通常是指预测和评估一个模型在特定工作、畛域或场景下的体现能力。能力预测的目标是为了更好地理解模型的性能,以便优化、调整或改良模型。通过对模型的能力预测,咱们能够更好地了解模型的劣势和局限,从而为模型的进一步倒退和改良提供有价值的反馈。GPT- 4 在训练时也应用了能力预测,这让他们可能更精确的评估模型的成果,节约了训练老本。
2.2 逻辑推理能力
OpenAI 为了晋升 GPT- 4 的推理能力,很有可能应用了近年来 LLM 十分重要的思维链以及自晋升能力。它们能够看做是提醒学习在逻辑推理能力上的针对性优化,上面咱们别离介绍它们。从 GPT- 4 的技术报告中,咱们能够发现很多 GPT- 4 的训练应用了思维链或者自晋升的证据。
2.2.1 思维链
思维链(Chain of Thought)是指人们在进行思考时,因为某个观点、想法或感知刺激而引发的一系列相干思维联想和关联。这些关联能够通过人们的记忆、教训、常识、情感和意识等方面来建设和增强,最终造成了一个有机的思维链,帮忙人们了解和解决问题,做出决策和口头。思维链是人类思维流动的重要组成部分,它反映了人们的思考形式、思考习惯和思考效率。通过构建和增强思维链,能够帮忙人们更好地了解和把握事物的实质和法则,更加无效地解决问题和做出决策。
在人工智能畛域,钻研人员也在摸索如何利用机器学习和自然语言解决等技术,来模仿人类的思维链,建设机器的思维链,帮忙机器更好地了解和解决人类的语言和行为,实现更加智能化的利用和零碎。OpenAI 的论文 [6] 是思维链方向具备重要意义的一篇文章,也是 GPT- 4 很有可能应用的技术计划,在这篇文章中,他们提出了通过构建思维链提醒的形式来晋升模型的推理能力。思维链也是一种涌现能力,它能够通过仅提供大量的样本便大幅晋升模型的逻辑推理能力。
思维链的与传统提醒学习的不同点是在提醒中减少一个推理过程,构建一个由输出,思维链,输入形成的三元组。图 9 是传统提醒和思维链提醒的实例。
图 9:传统提醒学习和思维链提醒学习,思维链会在输出中给出推理过程来帮忙模型学习推理的能力
思维链也反对多模态的输出,GPT- 4 的技术报告中也指出了 GPT- 4 应用了多模态的思维链。图 13 的 GPT- 4 的例子便是一个经典的因为应用思维链训练了模型而产生的蕴含推理过程的预测后果。图 10 是上海交大和亚马逊最新发表的一个多模态思维链的框架:Multimodel-COT [14]。它蕴含两个阶段,两个阶段共享参数。在第一个阶段,他们将图像和文本输出到模型中来生成理由,也就是思维链。在第二个阶段,他们将原始输出和生成的理由合在一起,输出到模型中来生成答案。
图 10:Multimodel-COT 的推理过程。
2.2.2 自晋升
谷歌在 2022 年公布的一篇文章 [7] 中指出,LLM 和思维链的联合能够让模型应用无监督的数据进行自我晋升(Self-Improve),它的外围办法如图 11 所示。GPT- 4 也指出他们应用了 [7] 的计划来晋升模型的遵循用户用意的能力。
图 11:LLM 能够通过大模型进行自我晋升
它的计算过程如下:
- 首先咱们基于思维链构建提醒;
- 依据不同的温度系数,模型生成多个不同的蕴含推理过程的 Path;
- 咱们应用投票的形式抉择最有可能的正确答案;
- 将蕴含这个正确答案的所有 Path 用来优化 LLM。
你可能曾经发现这个办法失去的答案并不一定是正确的答案。作者通过试验得出了两个重要论断:
- 答案的正确率和它的置信度是高度相干的,也就是说通过投票失去的答案很有可能是生成的答案中最正确的那个;
- 即便答案是谬误的,将它们退出到训练数据中也有助于模型的训练。
在失去了推理 Path 之后,作者依据这个 Path 构建了四种不同的输出数据,它们别离是:
- 规范的思维链提醒,即构建(问题,思维链,答案)三元对;
- 传统的提醒学习,即只有问题和答案;
- 输出是问题,增加“Let’s think step by step”提醒,让模型预测推理步骤;
- 传统的 QA,即输出问题,预测答案。
最初,为了丰盛数据集,作者提出了两个计划来裁减数据:一是随机组合两个问题,而后让模型生成新的问题;二是让模型生成推理步骤,并将它退出到训练集中。
2.3 了解图表能力
因为 GPT- 4 是反对图像格式的图表输出的,OpenAI 驰名的多模态算法 CLIP[8]讲的是咱们能够通过比照学习将图像和文本映射到同一特色空间,如图 12。那么联合 CLIP 的图像编码器便能够实现 GPT- 4 的图像输出,这时咱们须要训练一个能够和 GPT 的文字特色对齐的图像编码器,而后将 CLIP 的图像编码器的输入作为图像 token,最初再加一个 embedding 层将这个 token 编码为 GPT- 4 的特征向量。
图 12:CLIP 的构造,它通过比照学习将图像和文本投影到雷同的特色空间
GPT- 4 除了能够了解图 2 中这种照片的例子,最神奇的是 GPT- 4 还能够了解图 13 这种蕴含了很多细节的学术图片。因为在一个学术图片中,图中代指的符号,指标之间的地位关系都是非常重要的,如果 GPT- 4 仅仅通过一个图像编码就能捕捉这些细节信息,那么这个图像编码器肯定也展现出了十分强的涌现能力,这个图像编码器也大概率是千亿规模的参数量。
图 13:GPT- 4 具备了解学术图像中具体细节的能力。
GPT- 4 的多模态能力还有一种可能是相似多模态大语言模型(Multimodel Large Language Model,MLLM)。其中微软的 KOSMOS- 1 展现了和 GPT- 4 相似的多模态语言模型的能力,KOSMOS- 1 在多模态问答上也展现出了十分强的涌现能力,如图 14。KOSMOS- 1 是一个基于 Transformer 解码器的多模态模型,它将不同模态的数据拼接到一起,例如 <s> 和 </s> 示意文本输出,<image> 和 <\image> 示意图像输出,其中图像嵌入应用的是微软的 METALM[13]计算失去的特征向量。咱们揣测 GPT- 4 有可能借鉴了 KOSMO-1S 的思维,而后联合了 OpenAI 本身的一些多模态的工作。
图 14:微软的 KOSMOS- 1 涌现出了十分强的图像理解能力
对于 GPT- 4 的多模态的更多技术细节,咱们能够等 GPT- 4 的图像接口凋谢之后多多测试能力发现。
2.4 更平安的输入
现有的深度学习模型的思维均是应用大模型拟合训练集,对于一个生成模型来说,它的输入内容并不是齐全可控的,GPT- 4 也不例外。GPT- 4 的技术报告中指出文本模型会存在上面几类的危险输入,例如幻觉、无害内容、歧视、虚伪信息、暴力、隐衷、网络安全等。GPT- 4 做了大量工作来缓解这个问题。
GPT- 4 的第一个缓解危险输入的问题是延聘了 50 余名来自不同领域专家表演红队进行反抗测试。红队的工作是提出有危险性的问题,以测试 GPT- 4 给出的输入,并尝试攻克它。通过领域专家的反抗,OpenAI 也采集了大量不同方向的领域专家数据来晋升 GPT- 4 的安全性。
2.4.1 幻觉
幻觉(hallicination)是生成模型都十分难以解决的问题,它指的是模型产生的荒诞的或者不实在的内容,也就是不苟言笑的胡言乱语。随着模型生成的内容语句越来越通顺,内容越来越具备说服力,那么这种幻觉行为将是特地无害的。模型产生幻觉能够演绎为上面几个起因:
- 数据偏差:训练集可能存在某些偏差,例如数据的的确,谬误可能会影响模型对于自然语言的了解;
- 数据稠密:训练集可能在某一方面数据比拟少,导致模型在这一方面生成的能力不可控;
- 模型构造:模型的构造以及参数量可能会影响模型的泛化能力和示意能力,导致模型在某些方面产生幻觉的景象。
GPT- 4 采纳了两个策略来解决这个问题:
第一种办法是利用 ChatGPT 的数据进行训练。这个办法的长处是 ChatGPT 在过后曾经具备了肯定水平回绝生成无害内容的能力,比在网上爬取的数据具备更高的可靠性。但它的问题是可能会将 ChatGPT 的问题继承到 GPT- 4 中。而且依附一个模型的生成内容作为另一个模型的训练数据,可能会导致模型的过拟合。
第二种办法是采纳 NLP 技术来检测模型产生的幻觉样本,包含主动评估和人工评估。这个办法的长处是能够无效的检测和纠正模型产生的幻觉问题。它的毛病是依附主动评估的办法可能会因为评估模型的缺点漏掉一些幻觉样本,而人工评估的最大问题是人工成本是十分昂扬的。
在幻觉检测方面,Meta 有着十分重要的奉献。一方面他们提出了幻觉检测工作并制作了针对这个工作的幻觉检测数据集 HADES[15],另一方面他们提出了一个幻觉检测办法 [16],这个办法通过合成幻觉数据来对预训练模型进行微调。该模型能够检测一个句子中呈现的幻觉词,来对生成内容的真实性进行评估,从而加重幻觉呈现的概率。图 15 是该办法在机器翻译中的一个例子,标签为 1 的局部对应了生成的幻觉内容。这里猜想 OpenAI 可能采纳了和 Meta 相似的办法或数据。
图 15:FAIR 提出的幻觉检测办法在机器翻译中的示例
具体的讲,OpenAI 设计了一个多步骤的过程,应用 GPT- 4 自身来生成是否有幻觉的比拟数据,并将它们并入到图 6 步骤 2 的处分模型的训练集中:
- 将提醒 p 输出到 GPT- 4 中并失去一个响应 r1;
- 将 p 和 r1 输出到 GPT- 4 中,并批示它列出所有的幻觉 token。如果没有幻觉,则持续生成,直到有它列出幻觉 h1;
- 将 p,r1 和 h1 输出到 GPT- 4 中,并批示它生成一个没有幻觉的响应 r2;
- 将 p 和 r2 输出到 GPT- 4 中,让它列出所有的幻觉 token,如果没有检测到幻觉,则能够将 r1 和 r2 作为一个比照样本对放入处分模型的训练集中了。
2.4.2 其它问题
对于可能呈现的其它危险输入,OpenAI 并没有具体的介绍它的技术计划,不过从他们的技术计划中,咱们能够看出他们大略应用了上面几类办法:
- 应用 RBRM 来检测可能呈现的危险;
- 通过提醒学习让模型学习回绝答复此类问题;
- 利用红队发现这些可能存在的问题;
- 过滤训练数据,删除可能登程危险问题的样本;
- 训练处分模型,让模型惩办有危害的输入内容;
2.5 编程能力
GPT- 4 在编程能力上比 ChatGPT 有了微小的晋升,一方面他可能因为思维链把握了更强的逻辑剖析能力,另一方面它很有可能借鉴了 OpenAI 驰名的代码生成算法 CodeX[3]。CodeX 是 GPT- 3 在代码生成畛域的衍生版本,也是 Copilot 插件背地的根底算法。CodeX 采纳了 GPT 系列的 Decoder-only 的架构体系,模型的参数量有从 12M 到 12B 等多个不同的版本。CodeX 的训练分成预训练和微调两个阶段。
在预训练阶段,OpenAI 首先从 Github 上爬取了大量的 Python 文件,通过荡涤后失去了一个大小为 159GB 的训练集。因为 CodeX 是一个代码生成模型,所以它并没有应用 GPT- 3 训练好的权重,也没有齐全照搬 GPT- 3 的模型超参,而是从新训练了一个代码生成模型。
在微调阶段,OpenAI 从比赛网站,面试网站,Github 的单元测试脚本中收集了大概 40000 条数据。在评估代码正确性上,CodeX 并没有应用传统的 BLEU 分数,而是应用了代码可能通过多少比例的单元测试作为评估规范,并建设了评估测试集 HumanEval 和评估规范 pass@k。
为了防止数据泄露,HumanEval 的数据全副是由人类亲自结构的,总共蕴含 164 个题目和大量的测试用例。HumanEval 将每个函数划分为四类,即函数签名(function signature),函数正文,函数主体以及单元测试样本组成。在进行提醒学习时,函数签名和函数正文作为输出的提醒,函数主体作为要求的输入,单元测试用于评估生成代码的成果。
CodeX 的评估标注和 Leetcode 相似,即有多少比例的测试用例通过测试了,CodeX 的评估规范 pass@k 示意从模型的所有生成答案中随机抽取 k 个,从这 k 个答案里失去正确答案的概率。它的计算形式如式(1)。其中 n 是每个问题生成的答案,k 是从 n 个答案中随机抽取的 k 个,c 是 n 个答案里通过单元测试的答案数。
CodeX 和 GPT- 4 都是 GPT- 3 的下一代模型,让 GPT- 4 应用 CodeX 现成的思维和数据,并进步模型的编程能力,是再正当不过的工作了。
2.6 多语言能力
对于 GPT- 4 的在其它语种上的能力的大幅晋升,OpenAI 并没有给出介绍,我也没有查到相干解释。这里我依据目前的技术积攒,猜想一下 OpenAI 可能应用的技术计划:
- 晋升了其它语种的训练数据;
- 更大规模的模型让 GPT- 4 在小语种上涌现了更多的能力;
- 退出了针对小语种的工作,例如利用现有平行语料构建基于提醒学习的机器翻译工作,应用机器翻译引擎将局部数据翻译成小语种等。
这一部分的相干材料的确不多,也欢送大家在评论区给出本人的猜想。
2.7 长序列能力
这里的长序列蕴含两个方面,一方面是 GPT- 4 是反对多轮对话的,另一方面是 GPT- 4 反对更长的输出数据,上面咱们来探讨它们可能应用的技术。
2.7.1 多轮对话
ChatGPT 和 GPT- 4 都反对间断对话,但 OpenAI 始终也没有给出间断对话能力的背地技术计划。如果在每一轮对话时都粗犷的把之前的对话从新作为输出提供给模型。尽管实践上讲是行得通的,但这种形式的最大问题是随着对话轮数的增多,输出的数据也会疾速减少,进而导致 ChatGPT 或者 GPT- 4 的预测速度越来越慢,然而我在应用 ChatGPT 和 GPT- 4 的多轮对话时并没有发现这种速度逐步变慢的景象。
如果要从模型角度解决这个问题,咱们恰好有一个算法能够解决这个问题,它就是 Transformer-XL[10]。Transformer-XL 的重要改良是提出了片段递归的机制,如图 16。片段递归机制相似于 Transformer 和 RNN 的结合体,它的核心思想是对于一个长度不限的变长数据,在计算的时候也是固定每个片段的长度并计算这个片段的特色,然在计算下个片段时将后面片段的特色加到以后片段上,从而让模型能够解决任意长度的特色。
图 16:Transformer-XL 的片段递归机制
反馈到 ChatGPT 和 GPT- 4 的多轮对话中,我揣测 OpenAI 借鉴了 Transformer-XL 的片段递归的思维。即 GPT- 4 而后在进行第 $t$ 轮的计算时,会将缓存的第 t - 1 轮的特色和第 t 轮的特色相加,独特用于以后轮次的计算。因为第 t - 1 轮也思考了第 t - 2 轮的特色,实践上这个形式能够在不影响预测工夫的前提下取得之前很多轮之前的对话内容。
2.7.2 长序列输出
传统的 Transformer 并不善于解决长序列问题,因为输出长度为 n 的 Transformer 的复杂度为 O(n^2)。Transformer 的默认输出长度是 512,对于长度大于 512 的输出数据 Transformer 的解决方案是将它拆分成多个长度为 512 的文本块,然而这种会造成上下文碎片的问题,上一节介绍的 Transformer-XL 便是用来解决这个问题的。
这里咱们介绍 OpenAI 自家的用来解决长序列输出的算法:Sparse Transformer[11],因为 GPT- 3 就是应用的一般 Transformer 和 Sparse Transformer 的混合模式,所以 Sparse Transformer 也是十分有可能被 GPT- 4 用来解决长输出文本的一个模型,但它和一般 Transformer 是如何混合的就不得而知了。Sparse Transformer 的特点是只关注 Top- k 个奉献最大的特色的状态,它应用稠密注意力机制代替了 Transformer 的密集注意力,将计算注意力的复杂度降到了 O(n\sqrt n)。传统 Transformer 的密集注意力核被合成为了跨步注意力(Stried Attention)和固定注意力(Fixed Attention),每个注意力核又分为行注意力核和列注意力核。合成后的注意力核都是稠密的,因而大幅升高了模型的复杂度,如图 17。
图 17:密集注意力和稠密注意力
因为 GPT- 4 反对更长序列的数据,我在这里也列出了用于高效解决长数据的 Transformer 的两个变体。因为 GPT- 4 的技术报告太过点到为止,到底 GPT- 4 的网络结构如何,咱们只能期待 OpenAI 的官网颁布了。
2.8 技术计划总结
这一节咱们探讨了很多技术计划,有的具备比拟高的可信度,有的则猜想程度较高。上面这个表给出了各个计划的可信度(从 1 到 5 逐步增高)。
涌现能力 | 思维链 | 自晋升 | CLIP | KOSMOS-1 | CodeX | XLM | Trans-XL | Sparse Transf |
---|---|---|---|---|---|---|---|---|
5 | 5 | 3 | 3 | 3 | 4 | 1 | 1 | 4 |
依据咱们的上述揣测,咱们能够猜想 GPT- 4 的技术计划大抵如下:
第一阶段: 搭建多模态预训练模型,并进行微调,这一阶段次要目标是依据爬取的海量数据训练具备肯定能力的初版 GPT-4,训练形式相似 GPT-3。它的工作重点有两个:一是仿照 KOSMOS- 1 或是其它多模态模型搭建多模态预训练模型,应用 Transformer-XL 等解决长文本的高复杂度问题;二是收集数据,蕴含海量爬取数据,单模态,多模态,传统提醒学习数据,思维链提醒学习数据,代码数据等对模型进行训练。
第二阶段:GPT- 4 行为对齐,这一阶段的次要目标是依据人工打标实现模型行为与人类行为的对齐,削弱模型的风险性。这一阶段须要产出的模型有两个,一个是依据专家常识设计基于规定的处分模型 RBRM,另一个是依据人工打标的数据,幻觉检测模型的产出数据训练基于深度学习的处分模型 RM。
第三阶段:应用 RBRM 和 RM 作为处分函数,应用 RLHF 训练模型。第二阶段和第三阶段的训练形式相似 ChatGPT。
第四阶段:模型自晋升,GPT- 4 的训练可能是一个循环迭代,一直提醒的训练过程。在这一阶段,GPT- 4 会主动生成更多数据,例如应用模型自晋升产出的训练数据,专家红队反馈的测试案例等,应用这些数据返回第一阶段再对模型进行训练。
3. GPT- 4 的倒退方向
最近我也将 GPT- 4 和 ChatGPT 利用到了日常工作中,粗浅的被 GPT- 4 弱小的能力所震撼。它不仅能辅助我实现日常的编程,文章撰写工作,也可能帮我解决一些日常琐事,大幅晋升了我的工作效率。对于 GPT- 4 的各种赞叹与批评的文章网上已不可胜数,我在这里联合咱们剖析的技术计划,探讨一下 GPT- 4 为了的倒退方向,或者说是预测下 GPT- 5 可能的样子。
3.1 GPT- 4 的优化方向
只管 GPT- 4 在文本生成,代码生成,图像了解,逻辑推理能力展示了弱小的能力,但它仍旧有很大的提高空间的,将来的工作可能有上面几个重点方向:
- GPT- 4 当初的应用老本还是十分高的,与 GPT- 4 进行一轮对话的老本大概在 1 元左右。ChatGPT 的保护老本每天就有将近 100 万美元,咱们预测 GPT- 4 的参数量可能将近万亿规模,由此揣测它的保护老本可能在 500 万美元左右。如何轻量化模型,让 GPT- 4 可能被更多人应用,甚至让更多人可能训练本人的 GPT- 4 将是将来一段时间都会钻研的方向。
- GPT- 4 并不是相对平安的,GPT- 4 仍旧具备幻觉问题。GPT- 4 的幻觉检测,红队反抗,RBRM 等不是解决平安问题的最终计划。尽管说没有相对平安的零碎,但 OpenAI 曾经还会在安全性上加大投入,以加重他们可能面临的法律危险。
- GPT- 4 还是个离线模型,GPT- 4 不能代替搜索引擎的一个重要起因是它的常识并不是实时更新的。它的常识程度取决于它爬取数据的截止日期,这将使得它无奈解决截止日期之后呈现的新闻,概念,事件等。
- GPT- 4 还是多模态的初探,多模态和 LLM 可能是将来几年 AGI 最重要的两个方向,OpenAI 自身也有很多在多模态方向十分精彩的工作。如何进一步开掘 GPT- 4 在多模态方向的能力,波及更多模态,更多利用将是 OpenAI 接下来的重点工作。
3.2 GPT- 4 的利用
GPT- 4 凭借其弱小的生成能力和逻辑推理能力,可能极大的影响咱们的工作形式。置信这篇文章的读者很多是从事算法相干的科研和工作的人,我激励每个人都用上 GPT- 4 哪怕是 ChatGPT,那么 GPT- 4 的哪些性能对咱们十分有帮忙呢。这里我依据我的应用教训,列出几个我认为比拟有帮忙的方向:
- 撰写性能代码,让 GPT- 4 编写一个满足特定性能简单框架可能须要你向其提供简单的提醒,并且你也须要核查它生成的代码。然而如果让 GPT- 4 实现一些难度较低的性能函数,例如搭建一个网络,或是实现一个功能性函数,GPT- 4 生成的代码的可用性还是十分高的。
- 做文本润色,作为一个技术研发人员,咱们的文笔可能并不好,这时候咱们能够应用 GPT- 4 帮咱们对咱们写的文章做润色。尤其是当咱们用英语写论文或者邮件时,GPT- 4 能帮咱们解决 Chinglish 的问题。
- 浏览论文,GPT- 4 不仅是一个十分棒的机器翻译工具,经试用,它翻译的成果在专业性,连贯性等远超传统的机器翻译模型。此外 GPT- 4 还能够做一些总结,概括,提取类的工作,能让咱们疾速理解一篇论文的核心技术。基于 ChatGPT 制作的 ChatPDF 是咱们浏览论文有个十分得力的助手,图 18 是我应用 ChatGPT 帮忙我浏览 GPT- 4 的生成内容。
图 18:ChatPDF 依据 GPT- 4 的技术报告生成的 GPT- 4 在进步安全性上做的工作
- 日常工作,GPT- 4 十分善于写一些官网通告,发言稿,感谢信之类的内容,也十分善于做一些总结概括类的工作,它能够在这些方面进步咱们的人效。对于没有思路的事件,我也会尝试问一下 GPT-4,它常常可能帮我关上思路。
留神 GPT- 4 并没有彻底解决幻觉等安全性问题,面对 GPT- 4 生成的内容,咱们最好在应用之前进行严格的审核,否则可能会产生一些不可解释的问题。也是因为这个起因,GPT- 4 并不能取代从事这方面的业余工作人员,因为在 GPT- 4 的安全性问题解决之前,始终须要专业人士为其把关,而 GPT- 4 的安全性问题可能将会随同生成模型的整个生命周期。
4. 其它 LLM
随着 ChatGPT 和 GPT- 4 的提出,国内外的公司疾速跟进,掀起了一股 LLM 模型的研发热潮,也有很多公司提出了本人的 LLM,如图 19。
![图 19:LLM 的最新进展 [18]](https://p3-juejin.byteimg.com/tos-cn-i-k3u1fbpfcp/26d5983df95…)
图 19:LLM 的最新进展[18]
其中国内具备代表性的工作有上面这些工作。
- 百度的文心一言:百度的文心一言([](https://www.oschina.net/action/visit/ad?id=1191)ERNIE-Bot)是国内最早跟进的预训练大模型,然而百度对他们的工作技术却始终守口如瓶。不过从他的演示 demo 以及很多测试人员的测试成果来看,文心一言像是百度很多 AI 工作的工程化组合;
- 阿里的通义千问:通义千问是一个用 Transformer-XL 搭建的,领有 20 亿参数的文本生成模型。依据拿到邀请码的网友反馈来看,通义千问的文本生成成果略差于文心一言。
- 商汤的日日新:从发布会的展现成果来看,商汤的日日新是目前国内最好的 LLM,甚至达到了和 ChatGPT 相似的成果。日日新蕴含“磋商”,“秒画”“如影”“琼宇”“格物”五个次要性能,其中和 GPT- 4 对齐的是“磋商”。
- 清华大学的 GLM:GLM[17]是清华和智谱 AI 联合推出的一个应用英语和汉语训练的开源双语语言模型,最大参数规模达到了 1300 亿,GLM-130B 的成果介于 GPT- 3 和 ChatGPT 之间。GLM 后续还推出了 ChatGLM 以及能够在单机运行和微调的 GLM-6B,是目前成果最好的开源中文预训练大模型。
- 复旦大学的 MOSS:MOSS 是复旦大学 NLP 实验室的邱锡鹏老师团队,并与近期开源了相干代码。从目前成果来看,MOSS 并不十分成熟,但可喜的是邱老师的团队还始终在对 MOSS 进行优化。
比拟遗憾的是国内的很多模型并没有凋谢公测,这里也蹲一个国内模型的邀请码,以给出更全面的测评。
不仅国内疾速跟进,国外的头部公司也推出了本人的 LLM,其中具备代表性的有:
- MetaAI 的 LLaMA:LLaMA[19]的参数量有 70 亿,130 亿,330 亿和 650 亿四种规模。不同于 OpenAI 的是,MetaAI 开源了它们的代码和模型,并反对单机的部署。尽管 LLaMA 的成果不如 GPT-4,但他开源以及单机可运行的个性也吸引了很多机构和集体的二次开发。
- 谷歌的 PaLM 和 LaMDA:PaLM[20]是谷歌提出的构造相似 GPT 系列,总参数量达到 5400 亿的语言模型,谷歌在最近又推出了联合图像能力的多模态模型 PaLM-E [21]。LaMDA[22]是谷歌推出的用于生成更天然,更具兽性的语言模型,具备更靠近人类的表达方式,LaMDA 在 GPT- 3 的根底上进行了改良,减少了更多的对话场景和情感理解能力,能更好的模仿人类的对话和思考。甚至谷歌的研究员 Blake Lemoine 在测试了 LaMDA 一段时间后感叹:LaMDA 可能曾经具备人格了。
- Anthropic 的 Claude:Anthropic 是由 OpenAI 的到职员工成立,失去谷歌研发反对的一个人工智能公司。它们最近也推出了它们的 LLM:Claude。目前 Cluade 的成果略强于 ChatGPT,但显著弱于 GPT-4。
除了下面介绍的,国外的 LLM 还有 BigScience 的 BLOOM,斯坦福的 Alpaca,下面介绍过的微软的 METALM,KOSMOS- 1 等,国内的华为的盘古,腾讯的 WeLM 等等。除了这些通用模型,LLM 也被用在细分畛域,例如医学畛域的 HuaTuo[23],金融畛域的 BloombergGPT[24]等。
5. 总结
GPT- 4 到底会不会带来第四次工业革命,这是一个须要工夫验证的话题,我也没有资格在这给出论断,但 GPT- 4 对与我集体的影响是微小的。首先,它肯定水平上撼动了我对传统人工智能的了解,就像宏观物理的很多定理在宏观物理上是不成立的,我在传统人工智能上积攒的很多教训放在 GPT- 4 里也是不成立的。它展现出的弱小的零样本学习能力,以及更高阶的能力是远远超出我对深度学习的传统认知的。其次,GPT- 4 以及 ChatGPT 正成为我日常工作中最得力的助手,在撰写这篇文章时 GPT- 4 也提供了十分大的帮忙,它不仅能够帮忙我写代码,改文章,甚至还能帮我解决一些非工作的问题。最初,如雨后春笋般涌现的诸多不同的大模型又让我对日益看衰的深度学习注入了新的信念和生机。
对于 GPT- 4 这门技术,我倡议每个人都要去理解并学会应用它。不论你的工作是否和计算机相关,它都会给你带来一些帮忙,哪怕你是个厨子,它都可能给你生成一份美味的菜谱。在应用 GPT- 4 时,咱们也要感性的对待它生成的内容,只有 GPT- 4 有一丝的危险问题,咱们就不能放松对它的审核,以防幻觉问题给咱们造成损失。
在将来的一段时间,GPT- 4 肯定会给咱们带来诸多的影响。首先,互联网上会疾速涌现大量应用 GPT- 4 生成的咱们无奈辨别的内容,公众会不会被对立的 GPT- 4 的行为模式所影响是值得沉思的。其次,GPT- 4 将极大水平解放某些工作的生产力,甚至能够代替这些工作,咱们能不能抓住这个时机,在这个互卷的环境里看到新的机会十分重要。最初,GPT- 4 将以怎么的模式影响到每一个人都是不同的,GPT- 4 如果真的带来了 AGI,我心愿我的好友们你们都不要错过。
Reference
[1] https://cdn.openai.com/papers/gpt-4.pdf
[2] https://zhuanlan.zhihu.com/p/614340292
[3] Chen M, Tworek J, Jun H, et al. Evaluating large language models trained on code[J]. arXiv preprint arXiv:2107.03374, 2021.
[4] Bai, Yuntao, et al. “Training a helpful and harmless assistant with reinforcement learning from human feedback.” _arXiv preprint arXiv:2204.05862_ (2022).
[5] Wei J, Tay Y, Bommasani R, et al. Emergent abilities of large language models[J]. arXiv preprint arXiv:2206.07682, 2022.
[6] Wei J, Wang X, Schuurmans D, et al. Chain of thought prompting elicits reasoning in large language models[J]. arXiv preprint arXiv:2201.11903, 2022.
[7] Huang J, Gu S S, Hou L, et al. Large language models can self-improve[J]. arXiv preprint arXiv:2210.11610, 2022.
[8] Radford, Alec, et al. “Learning transferable visual models from natural language supervision.” _International Conference on Machine Learning_. PMLR, 2021.
[9] Guillaume Lample and Alexis Conneau. Cross-lingual language model pretraining. _arXiv preprint arXiv:1901.07291_, 2019.
[10] Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V.Le, and Ruslan Salakhutdinov. Transformer-XL: Attentive language models beyond a fixed-length context. _arXiv preprint arXiv:1901.02860_, 2019.
[11] Rewon Child, Scott Gray, Alec Radford, and Ilya Sutskever. Generating long sequences with sparse transformers. _arXiv preprint arXiv:1904.10509_, 2019.
[12] Huang, Shaohan, et al. “Language is not all you need: Aligning perception with language models.” _arXiv preprint arXiv:2302.14045_ (2023).
[13] Hao, Yaru, et al. “Language models are general-purpose interfaces.” _arXiv preprint arXiv:2206.06336_ (2022).
[14] Zhang, Zhuosheng, et al. “Multimodal chain-of-thought reasoning in language models.” _arXiv preprint arXiv:2302.00923_ (2023).
[15] Liu, Tianyu, et al. “A token-level reference-free hallucination detection benchmark for free-form text generation.” _arXiv preprint arXiv:2104.08704_ (2021).
[16] Zhou, Chunting, et al. “Detecting hallucinated content in conditional neural sequence generation.” _arXiv preprint arXiv:2011.02593_ (2020).
[17] Du, Zhengxiao, et al. “GLM: General language model pretraining with autoregressive blank infilling.” _Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)_ . 2022.
[18] Zhao, Wayne Xin, et al. “A Survey of Large Language Models.” _arXiv preprint arXiv:2303.18223_ (2023).
[19] Touvron, Hugo, et al. “Llama: Open and efficient foundation language models.” _arXiv preprint arXiv:2302.13971_ (2023).
[20] Chowdhery, Aakanksha, et al. “Palm: Scaling language modeling with pathways.” _arXiv preprint arXiv:2204.02311_ (2022).
[21] Driess, Danny, et al. “Palm-e: An embodied multimodal language model.” _arXiv preprint arXiv:2303.03378_ (2023).
[22] Thoppilan, Romal, et al. “Lamda: Language models for dialog applications.” _arXiv preprint arXiv:2201.08239_ (2022).
[23] Wang, Haochun, et al. “HuaTuo: Tuning LLaMA Model with Chinese Medical Knowledge.” _arXiv preprint arXiv:2304.06975_ (2023).
[24] Wu, Shijie, et al. “BloombergGPT: A Large Language Model for Finance.” _arXiv preprint arXiv:2303.17564_ (2023).
[25] Bubeck, Sébastien, et al. “Sparks of artificial general intelligence: Early experiments with gpt-4.” _arXiv preprint arXiv:2303.12712_ (2023).
[26] Lin, Stephanie, Jacob Hilton, and Owain Evans. “Truthfulqa: Measuring how models mimic human falsehoods.” _arXiv preprint arXiv:2109.07958_ (2021).