关于visual-studio-code:大模型核心技术原理-Transformer架构详解

45次阅读

共计 1684 个字符，预计需要花费 5 分钟才能阅读完成。

在大模型倒退历程中，有两个比拟重要点：第一，Transformer 架构。它是模型的底座，但 Transformer 不等于大模型，但大模型的架构能够基于 Transformer；第二，GPT。严格意义上讲，GPT 可能不算是一个模型，更像是一种预训练范式，它自身模型架构是基于 Transformer，但 GPT 引入了“预测下一个词”的工作，即一直通过前文内容预测下一个词。之后，在大量的数据上进行学习才达到大模型的成果。

之所以说 Transformer 架构好，是因为 Transformer 可能解决之前自然语言解决中最罕用的 RNN 的一些外围缺点，具体来看：一是，难以并行化，反向流传过程中须要计算整个序列；二是，长时依赖关系建模能力不够强；三是，模型规模难以扩充。

那么，Transformer 具体是如何工作的？

首先，是对输出进行标识符化，基于单词模式，或字母，或字符子串，将输出文本切分成几个 token，对应到字典中的 ID 上，并对每个 ID 调配一个可学习的权重作为向量示意，之后就能够针对做训练，这是一个可学习的权重。

在输出 Transformer 构造之后，其外围的有自注意力模块和前向流传层。而在自注意力模块中，Transformer 自注意力机制建模能力优于 RNN 序列建模能力。因而，有了 Transformer 架构后，基本上就解决了运行效率和训练很大模型的问题。

基于 Transformer 架构的支流语言大模型次要有几种：

一是，自编码模型，如 BERT，简略讲就是给到一句话，而后把这句话的内容挖空，当问及挖空的内容时，就把内容填回去，这其实是典型地用来做一个自然语言了解的工作，但做生成工作是十分弱的；

二是，自回归模型，如 GPT，它是通过一直地预测下一个词，特点是只能从左到右生成，而看不到前面的内容。GPT-1 最初接了一个 Linear 层做分类或选题题等工作，到了 GPT-2，曾经将一些抉择工作或者分类工作全副都变成文本工作，对立了生成的范式；

三是，编码器 - 解码器模型，如 T5，它的输出和输入是分为比拟显著的两块内容，或者是问答式，或者序列到序列的转换型的工作；

四是，通用语言模型，如 GLM，该模型联合了自回归和自编码两种模式的模型，举个例子，“123456”是一串输出的序列，当初把“3”、“5”、“6”挖空，让模型去学习，那么，挖空当前换成一个“mask token”通知模型这个中央遮掉了一些内容，当初须要去预测进去遮掉的内容。

与 BERT 不同的是，GLM 把自回归和自编码方式进行联合后，挖出来的内容间接拼到了文本的前面，而后加上一个“start token”，通知模型当初是开始生成了，开始做填空工作了，而后把标准答案“5”、“6”放在“star token”前面让它去预测，直到预测到“end token”，它就晓得这个填空曾经完结了。这个过程称为自回归填空式的工作，整个计算流程还是自回归式，但它一直预测下一个词，既实现了填空的性能，又能看到上下文内容。此外，相比于 GPT 模型，GLM 采纳了一个双向注意力的机制。

国产 AI 辅助编程工具 CodeGeeX。
CodeGeeX 也是一个应用 AI 大模型为基座的辅助编程工具，帮忙开发人员更快的编写代码。能够主动实现整个函数的编写，只须要依据正文或 Tab 按键即可。它曾经在 Java、JavaScript 和 Python 等二十多种语言上进行了训练，并基于大量公开的开源代码、官网文档和公共论坛上的代码来优化本人的算法。CodeGeeX 作为一款中国原创的 AI 辅助编程工具，当初收费提供给所有开发者应用，同时齐全开源，程序员应用普遍认为编写代码的效率晋升 2 倍以上。

最近性能上新十分快，比方刚刚更新的“Ask CodeGeeX”性能，是将智能问答模式，交融到理论开发场景中，让开发者更专一和沉浸于编程，不必来到以后 IDE 的编程环境，就能够边写代码边和 AI 对话，实现针对编程问题的智能问答。无需 waitlist，立即就能尝鲜这个新性能！

那么就先给大家疾速看看，在 CodeGeeX 上的体验是怎么的：

在大模型时代，编程举荐各位下载应用 AI 辅助编程工具 CodeGeeX。

正文完