关于深度学习:大语言模型技术原理

71次阅读

共计 10048 个字符,预计需要花费 26 分钟才能阅读完成。

在明天这个时代,人们的工作和生存曾经离不开数据拜访,而简直所有平台背地的数据存储和查问都离不开数据库。SQL 作为一种数据库的查问和解决语言历史悠久,最早由 IBM 于上世纪 70 年代初钻研关系数据模型时提出,后续倒退为一种宽泛应用的数据库规范拜访接口。

明天大语言模型的倒退给了咱们一个契机,从新扫视这层规范,如何让人们以更加天然的形式拜访数据库,数据以更间接、更灵便的形式返回给客户。因为历史倒退的起因,从数据库剖析出一个论断,须要“剖析人员 + 报表前端 + 数据后端 +SQL+ 数据存储”的全门路,这一应用范式在将来将受到挑战。除了自然语言自身的劣势外,语境的上下文学习能力、迁徙学习和文字总结能力也有很大的施展空间,带着这些思考,咱们有必要理解一下大语言模型背地的倒退及其技术原理。

一、大语言模型的倒退

大语言模型作为一个被验证可行的方向,其“大”体现在训练数据集广,模型参数和层数大,计算量大,其价值体现在通用性上,并且有更好的泛化能力。相较于传统特定畛域训练进去的语言模型,有更宽泛的利用场景。这篇文章参考 Google 和 OpenAI 相干论文及局部作者的补充,联合我的了解尝试用大家广泛看得明确的语言,对其技术倒退和次要实现进行解析。

1.1 Transformer 模型的提出

在 Transformer 提出之前,自然语言解决畛域的支流模型是循环神经网络(RNN,recurrent neural network),应用递归和卷积神经网络进行语言序列转换。2017 年,谷歌大脑团队在人工智能畛域的顶会 NeurIPS 发表了一篇名为“Attention is all you need”的论文,首次提出了一种新的简单网络架构,即 Transformer,它齐全基于注意力机制(attention),齐全摒弃了循环递归和卷积。

递归模型通常沿输出和输入序列的符号地位进行计算,来预测前面的值。但这种固有的程序性质妨碍了训练样例内的并行化,因为内存束缚限度了样例之间的批处理。而注意力机制容许对依赖项进行建模,而无需思考它们在输出或输入序列中的间隔。

Transformer 避开了递归网络的模型体系结构,并且齐全依赖于注意力机制来绘制输出和输入之间的全局依存关系。在八个 P100 GPU 上进行了仅仅 12 个小时的训练之后,Transformer 就能够在翻译品质方面达到新的最先进程度,体现了很好的并行能力。成为过后最先进的大型语言模型(Large Language Model, LLM)。

总结两个外围冲破:

  1. 冲破了远距离文本依赖的学习限度,避开了递归网络的模型体系结构,并且齐全依赖于注意力机制来绘制输出和输入之间的全局依赖关系。关联来自两个任意输出或输入地位的信号所需的操作数随着间隔减少,原来须要线性增长或对数增长,当初被收敛成一个常量,并通过多留神头机制保障了准确性。
  2. 可高度并行进行训练,这对施展硬件红利以及疾速迭代模型十分重要。

下图是论文提到的 Transformer 模型,对编码器和解码器应用重叠式的自注意力和逐点式、全连贯层,别离如图 1 的左半局部(编码器)和右半局部(解码器)所示,相干技术细节前面会重点讲到。

OpenAI 基于该工作根底上倒退了 GPT(Generative Pre-training)生成式预训练模型,这里借用网上一张图简略改过,相干细节将在前面开展。

1.2 生成式预训练初现后劲:GPT-1

2018 年,OpenAI 公司发表了论文“Improving Language Understanding by Generative Pre-training”,

应用的模型有两个阶段,第一阶段是无监督预训练,基于海量的文本集通过 Transformer 学习一个大容量的语言模型,第二阶段基于标注数据进行参数微调。失去的个别工作不可知模型(或称为通用模型)优于通过判断训练的模型,在论文选定的 12 种数据集中有 9 个获得更好成果。在 GPT-1 中,采纳了 12 层 Transformer 的构造作为解码器,每个 Transformer 层是一个多头的自注意力机制,而后通过全连贯失去输入的概率分布。

这次实际对 OpenAI 来讲,我感觉是奠定了他们往这个路线倒退的外围因素,次要有几个重点冲破:

1、证实了通用模型训练具备很大的价值后劲。之前用于学习特定工作的标注数据难以获得,导致模型成果不能继续晋升,而通过 Transformer 无监督训练 + 大量标注数据的 Finetune 就获得了更优的成果。

2、论文尝试减少 Transformer 中间层,在从 2 层到 12 层的数量减少中,均匀每减少 1 层可能晋升 9% 的准确性。加上 Transformer 自身具备并行能力,这在 GPU 上无疑后劲微小。

3、论文发现在第二步的 Finetune 中增加语言建模作为辅助学习指标,可能进步监督模型的泛化能力,并减速收敛。阐明在更海量的数据集时,模型会更收益于辅助学习指标。

尽管论文摘要重点强调了该模型在短少标注数据状况下对特定工作的劣势,但其实以上三点发现对 OpenAI 后续技术路线影响重大。但 GPT- 1 在生成长文本时,依然会呈现信息忘记和反复等问题,和特定畛域的模型比照还有很多有余。

1.3 泛化能力冲破:GPT-2

2019 年,OpenAI 发表了最新进展,一篇“Language Models are Unsupervised Multitask Learners”的论文。重点实际了更大的模型更广的数据集具备更好的泛化能力。GPT- 1 是 12 层的 transformer,BERT 最深是 24 层的 transformer,GPT- 2 则是 48 层,共有 15 亿个参数的 transformer,训练集叫 WebText,是从 4500 万个链接提取文本去重后,失去 800 万文档共 40GB 文本。

论文认为现有零碎用单个工作来训练的单个畛域数据集,是不足模型泛化能力的次要起因,因而在更广的数据集上,GPT- 2 采纳了多任务(multitask)的形式,每一个工作都要保障其损失函数能收敛,不同的工作共享主体 transformer 参数。

最终训练进去的模型在不须要任何参数和模型改变下,在 zero-shot(零样本)工作中,在 8 个数据集中有 7 个体现为业界最优,这个泛化能力能够说曾经很弱小了,并且在机器翻译场景获得亮眼后果,GPT 也是在 2.0 进去后,开始备受关注。

1.4 更大参数更大数据集:GPT3

之前的模型要在特定畛域有更好体现,仍然须要上千条标注样本数据来进行 finetune,很大水平影响了模型的通用性,而人类可能依据后面一句话晓得语境(in-context),从而正确答复问题。GPT3 就通过调大参数(1750 亿)来测试 in-context 学习能力,并在没有 finetune 状况下失去以下数据。在参数一直减少的同时,分为三种场景看答复准确率体现:Zero-shot(0 样本),One-shot(只给一个规范样本),Few-shot(大量规范样本,1000 条左右)。下图能够看到模型参数和样本集对正确性的影响,随着参数增多,Few-shot 相比 Zero-shot 的晋升成果在拉大,阐明越大的参数对样本具备更强的泛化能力。

论文做了不同参数的验证工作,n(params)是参数梳理,n(layers)是模型层数,d(model)是 FFN 层数的 1 /4,d(head)是多留神头的维数,所有测试应用的上下文 token 数是 2048。

GPT-3 在 GPT-2 谋求无监督和零次学习的特色根底上进行了改良,转而谋求无监督模式下的 few-shot(大量学习)。GPT- 3 采纳了 96 层的多头 Transformer,上下文窗口大小晋升至 2048 个 token,基于更大的数据集 45TB 的文本数据训练,在多个 NLP 数据集上实现了杰出的性能。GPT- 3 更多的工作在工程问题上,比方数据净化解决,GPU 并行时缩小节点间网络交互和负载平衡等。

论文测试了超过 24 中场景,GPT- 3 在许多 NLP 数据集上实现了弱小的性能,包含翻译、问题答复和完形填空工作,以及一些须要实时推理或畛域适应的工作,如解读单词、在句子中应用新单词或执行 3 位数字算术。论文还表明,在 few-shot 设置下,GPT- 3 能够生成人类评估者难以辨别的新闻文章。

1.5 火爆的 ChatGPT:GPT 3.5

2022 年 3 月,OpenAI 再次发表论文“Training language models to follow instructions with human feedback”,通过人工反馈和微调,使语言模型与用户对各种工作的用意保持一致。并推出了 InstructGPT 模型,InstructGPT 是基于 GPT-3 的一轮加强优化,所以也被称为 GPT-3.5。只管 GPT3.5 还会犯一些简略的谬误,但论文工作表明利用人类反馈进行微调是一个很有前景的方向。

论文提供了一种办法,能通过对人类反馈进行微调,使语言模型在宽泛的工作利用中更好地听从使用者用意。从一组人工编写的 prompts 和通过 OpenAI API 提交的 prompts 开始,论文收集了所需模型行为的标记样本数据集,并应用监督学习对 GPT- 3 进行微调。而后,论文对模型输入进行人工排名,应用来自人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)进一步微调这个监督模型。InstructGPT 模型的参数为 1.3B,而 GPT- 3 模型的参数为 175B,约为 InstructGPT 模型的 130 倍,但 InstructGPT 模型的输入却优于 GPT- 3 模型的输入。

训练过程首先延聘了 40 个承包商来标注数据,收集提交给 OpenAI 的 prompts 的人工答案样本集,以及一些人工写的 prompts 作为训练监督学习的基线。而后,在更大的 prompts 集上比照 OpenAI 的输入,并人工标记差距,据此训练出一个处分模型 (Reward Model) 来预测人类爱好的输入。最初用 PPO 来最大化这个处分模型和 fine-tune 对监督模型的成果。这部分具体技术细节将在前面开展。论文认为模型如果有价值观的话,体现更多的是标注者的价值观念而不是更宽泛人的价值观。

对人类工作用意的辨认,是一个十分重要的能力。ChatGPT 采纳 InstructGPT 雷同构造的模型,针对 Chat 进行了专门的优化,同时凋谢到公众测试训练,以便产生更多无效标注数据。基于人类反馈的强化学习(RLHF)是 ChatGPT 区别于其余生成类模型的最次要特点,该法帮忙模型尽量减少无害的、不实在的及有偏见的输入,晋升天然沟通成果。同时,为了更好地反对多轮对话,ChatGPT 引入了一种基于堆栈的上下文治理的机制,帮忙 ChatGPT 跟踪和治理多轮对话中的上下文信息,从而在多轮对话中生成连贯天然的回复。

1.6 以后的技术局限性

  1. 业余的畛域,不足语料训练的状况下,GPT 无奈生成适合的答复。
  2. 可信度问题,不足答案的具体起源。
  3. 时效性问题,大模型底层训练数据是过往数据,再一次训练的老本很高。
  4. 数理问题会不苟言笑地胡言乱语,Stephen Wolfram 发明了计算常识搜索引擎和计算语言 wolfram,有机会将自然语言转为计算符号再进行计算,解决这一问题。
  5. 模型的训练方法有个致命的问题,训练好的模型在答复问题时,在各个答案里选一个最优答案,但答案仍然可能是错的,模型实质是黑盒的,目前还未能对外部逻辑进行合成,无奈保障不产生无害或挫伤客户的形容。如果调教训练模型更加审慎,可能会回绝答复(以防止提醒的误报)。有时模型最终对一个短语没有反馈,但对问题 / 短语稍作调整,它最终会正确答复。

二、次要技术细节

Google 的论文比拟简短,看到刘岩举荐的 Jay Alammer 对 Transformer 的解说,这里也做了局部援用,这里心愿用大家看得懂的话,抽取次要技术细节讲清楚。

从数学或机器学习的角度来看,语言模型都是对词语序列的概率相关性散布的建模,即利用曾经说过的语句(语句能够作为数学中的向量)作为输出条件,预测下一个时刻不同语句甚至语言汇合呈现的概率分布。GPT 生成式预训练模型也是依据语料概率来主动生成答复的每一个字,ChatGPT 在此基础上通过应用基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)来干涉加强学习以获得更好成果。

2.1 什么是 Transformer?

本文重点介绍 Transformer 外围构造和技术点,略过训练优化局部。

编解码组件构造

Transformer 实质上是一个 Encoder-Decoder 架构,包含编码组件和解码组件。比方在机器翻译工作中,将一种语言的一个句子作为输出,而后将其翻译成另一种语言的一个句子作为输入。编码组件和解码组件能够有很多层,比方 Google 刚提出时的论文用的是 6 层,前面 GPT- 1 是 12 层,而后到 GPT- 3 是 96 层。

每个编码器由两个子层组成:Self-Attention 层(自注意力层)和 Position-wise Feed Forward Network(前馈网络,缩写为 FFN),每个编码器的构造都是雷同的,然而它们应用不同的权重参数。编码器的输出会先流入 Self-Attention 层。它能够让编码器在对特定词进行编码时应用输出句子中的其余词的信息(能够了解为:当咱们翻译一个词时,不仅只关注以后的词,而且还会上下文关注其余词的信息)。

解码器也有编码器中这两层,然而它们之间还有一个编解码注意力层(即 Encoder-Decoder Attention),其用来帮忙解码器关注输出句子中须要关注的相干局部。

  • 编码器对文本的解决

对文本处理和通常的 NLP 工作一样,首先应用词嵌入算法(Embedding)将每个词转换为一个词向量(vector)。在 Transformer 论文摘要提到词嵌入向量的维度是 512,所有编码器都会接管到蕴含多个大小为 512 的向量列表(List of vectors)。嵌入仅产生在最底层的编码器中,其余编码器接管的是上一个编码器的输入。这个列表大小是咱们能够设置的参数——基本上这个参数就是训练数据集中最长句子的长度。对输出序列实现嵌入操作后,每个词都会流经编码器内的两层,而后一一编码器向上传递。

编码器对文本的解决

Self-Attention 原理

之前说 Transformer 的自留神机制冲破了文本关注间隔的限度,因而十分要害。先看这样一个句子:

The animal didn't cross the street because it was too tired

这个句子中的 ”it” 代表什么意思,是 animal,还是 street 还是其余?这个对人来说很容易,但对模型来说不简略。self-Attention 就是用来解决这个问题,让 it 指向 animal。通过加权之后能够失去相似图 8 的加权状况,The animal 取得最大关注。

在 self-attention 中,每个单词有 3 个不同的向量,它们别离是 Query 向量(Q),Key 向量(K)和 Value 向量(V),长度均是 64。它们是通过 3 个不同的权值矩阵由嵌入向量 X 乘以三个不同的权值矩阵 W^Q,W^K,W^V 失去,其中三个矩阵的尺寸也是雷同的。均是 512×64。

Query,Key,Value 的概念取自于信息检索零碎,举个简略的搜寻的例子来说。当你在某电商平台搜寻某件商品(年老女士夏季穿的红色薄款羽绒服)时,你在搜索引擎上输出的内容便是 Query,而后搜索引擎依据 Query 为你匹配 Key(例如商品的品种,色彩,形容等),而后依据 Query 和 Key 的类似度失去匹配的内容(Value)。

self-attention 中的 Q,K,V 也是起着相似的作用,在矩阵计算中,点积是计算两个矩阵类似度的办法之一,因而式 1 中应用了 QK^T 进行类似度的计算。接着便是依据类似度进行输入的匹配,这里应用了加权匹配的形式,而权值就是 query 与 key 的类似度。

多留神头机制

Multi-headed attention 加强了自留神能力,其一是扩大了关注的地位,使之同时关注多个不同地位,其二是它为注意力层提供了多个“示意子空间”,如论文用了 8 个留神头,那就有 8 组不同的 Q /K/ V 矩阵,每个输出的词向量都被投影到 8 个示意子空间中进行计算。

具体流程如下图,“Thinking Machines” 的词向量通过最上面那层编码器后,应用不同的权重矩阵进行 8 次自注意力计算,就能够失去 8 个不同的 Z 矩阵(0-7)。而后将 8 个 Z 矩阵拼接起来,和权重矩阵 W0 相乘,就失去最终的矩阵 Z,这个矩阵蕴含了所有注意力头的信息。这个矩阵会输出到 FFN 层。

当初从新看之前的例子,在多留神头机制下,”it” 关注的词有哪些,顶部的 8 种颜色代表 8 个留神头,能够看到有个留神头最关注 ”the animal”,另一个留神头关注 ”tired”,从某种意义上说,模型对“it”这个词的示意融入了“animal”和“tired”的示意。

  • 因而多留神头实质上是用更多个角度进行注意力计算再对立起来,可能加强对句子上下文的残缺了解。
  •  解码器的联动 在解码器中,Transformer block 比编码器中多了个 encoder-cecoder attention。在 encoder-decoder attention 中,Q 来自于解码器的上一个输入,K 和 V 则来自于编码器的输入。这些向量将在每个解码器的 Encoder-Decoder Attention 层被应用,帮忙解码器把注意力关注到输出序列的适合地位。下图显示在翻译 I am a student 过程中,每一轮解码器都生成一个词,如图示生成到 ”a” 时,”a” 会退出作为下一轮的输出 Q,而后解码器联合输出和编码器的 K、V,生成 ”student”。

2.2 ChatGPT 是如何晋升训练成果的?

ChatGPT 的背地是大型语言模型 (Large Language Model,LLM) 生成畛域的新训练范式:RLHF (Reinforcement Learning from Human Feedback),即基于来自人类反馈的强化学习来优化语言模型。对于 RLHF 训练有个 TAMER 框架(Training an Agent Manually via Evaluative Reinforcement)值得参考。

  • RLHF 是一项波及多个模型和不同训练阶段的简单概念,这里咱们按三个步骤合成:
  • 预训练一个语言模型 (LM);
  • 聚合问答数据并训练一个处分模型 (Reward Model,RM);
  • 用强化学习 (RL) 形式微调 LM。

GPT3 训练后的大语言模型是依据概率分布,计算出下一个最大可能的词,他不论事实逻辑上的准确性,也没有所谓的意识,所以有时会不苟言笑地胡言乱语。RLHF 是用生成文本的人工反馈作为性能衡量标准,或更进一步用该反馈作为处分来优化模型,使得在个别文本数据语料库上训练的语言模型能和简单的人类价值观对齐。具体步骤如下:

首先,咱们应用经典的预训练指标训练一个语言模型。对这一步的模型,OpenAI 在其第一个风行的 RLHF 模型 InstructGPT 中应用了较小版本的 GPT-3。而后进行以下步骤:

  1. 训练监督策略语言模型

GPT- 3 自身无奈辨认人类指令蕴含的不同用意,也很难判断生成内容是否高质量。为了解决这一问题,训练过程是从数据集中随机抽取问题,由标注人员给出高质量答案,相当于提供了一系列人工编写的 prompts 和对应的答案数据集。而后用这些人工标注好的数据集微调 GPT3.5 模型,取得 SFT 模型(Supervised Fine-Tune)。

  1. 训练处分模型

训练方法:依据第一阶段的模型,随机抽取问题,给出多个不同的答复,人工选出最优答案进行标注,有点相似教学辅导。将高质量答案的处分值进入下一轮强化学习 RL,训练一个处分模型来预测人类偏好的输入。

RM 的训练是 RLHF 区别于旧范式的开始。这一模型接管一系列文本并返回一个标量处分,数值上对应人的偏好。咱们能够用端到端的形式用 LM 建模,或者用模块化的零碎建模 (比方对输入进行排名,再将排名转换为处分)。这一处分数值将对后续无缝接入现有的强化学习 RL 算法至关重要。

对于模型抉择方面,RM 能够是另一个通过微调的 LM,也能够是依据偏好数据从头开始训练的 LM。例如 Anthropic 提出了一种非凡的预训练形式,即用偏好模型预训练 (Preference Model Pretraining,PMP) 来替换个别预训练后的微调过程。微调 LM 被认为对样本数据的利用率更高,但对于哪种 RM 更好尚无定论。

  1. 近端策略优化 (Proximal Policy Optimization,PPO)

应用 PPO 优化处分模型的策略。应用处分模型的输入作为标量处分,并应用 PPO 算法对监督策略进行微调,以优化该处分。

训练方法:PPO 的外围目标是将在线的人工学习转为离线学习,机器本人给本人打分。利用第二阶段训练好的处分模型,在数据集中随机抽取问题,应用 PPO 模型生成多个答复,并用上一阶段训练好的 RM 模型别离给出品质分数。把回报分数按排序顺次传递,产生策略梯度,通过强化学习的形式更新 PPO 模型参数。

最初步骤 2 和步骤 3 能够循环迭代,能够不断完善模型。

PPO 算法补充阐明:

长期以来出于工程和算法起因,人们认为用强化学习训练 LM 是不可能的。而目前多个组织找到的可行计划是应用策略梯度强化学习 (Policy Gradient RL) 算法、近端策略优化 (Proximal Policy Optimization,PPO) 微调初始 LM 的局部或全副参数。PPO 算法曾经存在了绝对较长的工夫,有大量对于其原理的指南,因此成为 RLHF 中的无利抉择。

咱们将微调工作表述为 RL 问题。首先,该策略 (policy) 是一个承受提醒并返回一系列文本 (或文本的概率分布) 的 LM。这个策略的口头空间 (action space) 是 LM 的词表对应的所有词元 (个别在 50k 数量级),察看空间 (observation space) 是可能的输出词元序列(词汇量 ^ 输出标记的数量,比拟大)。处分函数是偏好模型和策略转变束缚 (Policy shift constraint) 的联合。

PPO 算法确定的处分函数具体计算如下:将提醒 x 输出初始 LM 和以后微调的 LM,别离失去了输入文本 y1y2,将来自以后策略的文本传递给 RM 失去一个标量的处分 。将两个模型的生成文本进行比拟,计算差别的惩办项,惩办每个训练批次中生成大幅偏离初始模型的 RL 策略,以确保模型输入正当连贯的文本。

总体来说,ChatGPT 在人工标注的 prompts 和答复里训练出 SFT 监督策略模型,再通过随机问题由模型给出多个答案,而后人工排序,生成处分模型,再通过 PPO 强化训练加强处分成果。最终 ChatGPT 可能更好了解指令的用意,并且按指令实现合乎训练者价值观的输入。

最初,大语言模型作为一个被验证可行的方向,其“大”体现在数据集宽泛,参数和层数大,计算量大,其价值体现在通用性上,有宽泛的利用场景。大语言模型可能倒退,次要还是模型具备很好的并行扩展性,随着数据量和计算量的减少,次要挑战在工程和调优上。海内除了 GPT、还有 LLama、PaLM 等,国内目前也有很多相应的钻研,因为很多根底技术以前就存在,最近国内追赶速度也很快,咱们预期国内半年左右可能到 GPT 3.5 程度。NineData 也十分看好这个方向,并且曾经将大语言模型利用到 NineData 平台的 SQL 开发中,反对通过自然语言间接查找、变更数据,提供数据库问题和常识问答、数据库 SQL 优化倡议等多项能力,后续咱们还将推出更多有价值的性能,欢送登陆应用。https://www.ninedata.cloud

作者简介:

陈长城(天羽),玖章算术技术副总裁,前阿里云资深技术专家,在数据库畛域深耕 15 年,主导了阿里数据库基础架构演进(IOE 到分布式、异地多活、容器化存计拆散)和云原生数据库工具体系建设。

参考文献:

Google Brain:“Attention is all you need”

OpenAI:“Improving Language Understanding by Generative Pre-training”

OpenAI:“Language Models are Unsupervised Multitask Learners”

OpenAI:“Language Models are Few-Shot Learner”

OpenAI:“Training language models to follow instructions with human feedback”

Luke Cheng:https://github.com/huggingface/blog/blob/main/zh/rlhf.md

Jay Alammar: http://jalammar.github.io/illustrated-transformer/

正文完
 0