关于visual-studio-code:大模型核心技术原理-Transformer架构详解

2次阅读

共计 1684 个字符,预计需要花费 5 分钟才能阅读完成。

在大模型倒退历程中,有两个比拟重要点:第一,Transformer 架构。它是模型的底座,但 Transformer 不等于大模型,但大模型的架构能够基于 Transformer;第二,GPT。严格意义上讲,GPT 可能不算是一个模型,更像是一种预训练范式,它自身模型架构是基于 Transformer,但 GPT 引入了“预测下一个词”的工作,即一直通过前文内容预测下一个词。之后,在大量的数据上进行学习才达到大模型的成果。

之所以说 Transformer 架构好,是因为 Transformer 可能解决之前自然语言解决中最罕用的 RNN 的一些外围缺点,具体来看:一是,难以并行化,反向流传过程中须要计算整个序列;二是,长时依赖关系建模能力不够强;三是,模型规模难以扩充。

那么,Transformer 具体是如何工作的?

首先,是对输出进行标识符化,基于单词模式,或字母,或字符子串,将输出文本切分成几个 token,对应到字典中的 ID 上,并对每个 ID 调配一个可学习的权重作为向量示意,之后就能够针对做训练,这是一个可学习的权重。

在输出 Transformer 构造之后,其外围的有自注意力模块和前向流传层。而在自注意力模块中,Transformer 自注意力机制建模能力优于 RNN 序列建模能力。因而,有了 Transformer 架构后,基本上就解决了运行效率和训练很大模型的问题。

基于 Transformer 架构的支流语言大模型次要有几种:

一是,自编码模型,如 BERT,简略讲就是给到一句话,而后把这句话的内容挖空,当问及挖空的内容时,就把内容填回去,这其实是典型地用来做一个自然语言了解的工作,但做生成工作是十分弱的;

二是,自回归模型,如 GPT,它是通过一直地预测下一个词,特点是只能从左到右生成,而看不到前面的内容。GPT-1 最初接了一个 Linear 层做分类或选题题等工作,到了 GPT-2,曾经将一些抉择工作或者分类工作全副都变成文本工作,对立了生成的范式;

三是,编码器 - 解码器模型,如 T5,它的输出和输入是分为比拟显著的两块内容,或者是问答式,或者序列到序列的转换型的工作;

四是,通用语言模型,如 GLM,该模型联合了自回归和自编码两种模式的模型,举个例子,“123456”是一串输出的序列,当初把“3”、“5”、“6”挖空,让模型去学习,那么,挖空当前换成一个“mask token”通知模型这个中央遮掉了一些内容,当初须要去预测进去遮掉的内容。

与 BERT 不同的是,GLM 把自回归和自编码方式进行联合后,挖出来的内容间接拼到了文本的前面,而后加上一个“start token”,通知模型当初是开始生成了,开始做填空工作了,而后把标准答案“5”、“6”放在“star token”前面让它去预测,直到预测到“end token”,它就晓得这个填空曾经完结了。这个过程称为自回归填空式的工作,整个计算流程还是自回归式,但它一直预测下一个词,既实现了填空的性能,又能看到上下文内容。此外,相比于 GPT 模型,GLM 采纳了一个双向注意力的机制。

国产 AI 辅助编程工具 CodeGeeX。
CodeGeeX 也是一个应用 AI 大模型为基座的辅助编程工具,帮忙开发人员更快的编写代码。能够主动实现整个函数的编写,只须要依据正文或 Tab 按键即可。它曾经在 Java、JavaScript 和 Python 等二十多种语言上进行了训练,并基于大量公开的开源代码、官网文档和公共论坛上的代码来优化本人的算法。CodeGeeX 作为一款中国原创的 AI 辅助编程工具,当初收费提供给所有开发者应用,同时齐全开源,程序员应用普遍认为编写代码的效率晋升 2 倍以上。

最近性能上新十分快,比方刚刚更新的“Ask CodeGeeX”性能,是将智能问答模式,交融到理论开发场景中,让开发者更专一和沉浸于编程,不必来到以后 IDE 的编程环境,就能够边写代码边和 AI 对话,实现针对编程问题的智能问答。无需 waitlist,立即就能尝鲜这个新性能!

那么就先给大家疾速看看,在 CodeGeeX 上的体验是怎么的:

在大模型时代,编程举荐各位下载应用 AI 辅助编程工具 CodeGeeX

正文完
 0