共计 6281 个字符,预计需要花费 16 分钟才能阅读完成。
编者按:最早人工智能的模型是从 2012 年(AlexNet)问世,模型的深度和广度始终在逐级扩升,龙蜥社区理事单位浪潮信息于 2019 年也公布了大规模预训练模型——源 1.0。明天,浪潮信息 AI 算法研究员李峰带大家理解大模型倒退现状和大模型基础知识,交换大模型在产业利用中起到的作用和 AI 服务新态势。
本文整顿自龙蜥大讲堂第 60 期,以下为本次分享原文:
01 大模型现状
大家能够看到,人工智能的模型其实从最早 2012 年(AlexNet)问世以来,模型的深度和广度始终在逐级扩升,其中比拟典型的是到了 2018 年的时候像 BERT-Large 等这种基于 BERT 和 transformer 构造的模型产生之后,衰亡了一波模型规模和参数激增的热潮。从 BERT 模型呈现到 GPT-3 领有 1750 亿参数规模的千亿级大模型,大规模预训练模型成了一个新的技术发展趋势。
在 2019 年的时候,浪潮信息也公布了大规模预训练模型——源 1.0。参数量是 2457 亿。站在当初的角度回看历史的倒退长河,模型的尺度和规模是在逐级扩增的,这个趋势仍旧是有愈演愈烈的一个状况。
整体大模型的衰亡绕不开一个根底模型构造 Transformer。Transformer 架构相当于是在承受输出之后,在外部进行了一个相似于查表的工作,其中的注意力层之所以叫注意力,最大的作用直白的来看就是能够去学习关系,所谓的注意力就是当咱们看到一个货色的时候,对他感兴趣咱们就会多看一会儿,对另外一个货色没有趣味或者对它的趣味比拟低,则对它的关注会更少一点。这种注意力机制就是把所谓关注的水平转换成了一个可掂量的指标,这就是下面说到的注意力。用这样的一个注意力层能够更好的去学习所有输出之间的一个关系,最初的一个前馈层又对输出的信息进行一个高效的存储和检索。这样的一个模型构造与之前基于 RNN 的模型构造相比不仅是极大地晋升了自然语言解决工作的精度,而且在计算性能上也远超 RNN 类的模型。Transformer 构造的提出极大晋升了计算效率和资源利用率。能够看到,在模型构建和训练算法的设计过程当中,算力和算法是相辅相成的,二者缺一不可,也就是咱们提出的混合架构的一个算法设计。
另外 Transformer 构造之所以可能做大做强,再创辉煌,另一个基本的起因在于互联网上有相当多海量数据能够供模型进行自监督学习,这样才为咱们宏大的水库中投入了宏大的数据资源和常识。
正是这些益处奠定了 Transformer 构造作为大模型基础架构的松软的位置。
基于对前人的钻研调研以及实证钻研之后,咱们发现随着数据量和参数量的增大,模型的精度仍旧能够进一步的晋升,即损失函数值是能够进一步升高的。模型损失函数和模型的参数规模以及模型训练的数据量之间是出现这样一个关系,当初仍旧处在绝对两头的程度上,当模型和数据量的规模进一步增大的时候仍旧能够失去大模型边际效益带来的收益红利。
大模型正在作为一种新型的算法,成为整个人工智能技术新的一个制高点和一个新型的基础设施。能够说大模型是一种变革性的技术,他能够显著的晋升咱们人工智能模型在利用当中的性能体现,将人工智能的算法开发的过程由传统的烟囱式开发模式转向一种集中式建模,解决 AI 利用落地过程当中的一些场景碎片化、模型构造和模型训练需要零散化的痛点。
另外咱们能看到的是对于大模型这个畛域外面的玩家,次要是来自中美两国。从 GPT3 公布当前咱们国内也开始相应的有不同的参数规模的模型来去引领世界大模型业界的一个浪潮。正如咱们之前提到的,在大规模预训练模型外面,模型参数晋升带来的边际收益仍旧存在,所以大家在短期之内仍旧在吃这种大模型参数晋升带来的收益红利。
02 浪潮·源 1.0 大规模中文自然语言模型
浪潮·源 1.0 大规模中文自然语言解决模型有 2457 亿参数,于 2019 年的时候 9 月份公布,在公布之时,凭借参数量登顶了业界规模最大的中文自然语言的单体模型。在这个模型整个构建的时候,最大的一个问题就是数据,数据集从哪来,怎么去构建,蕴含哪些内容。这里给大家列了一个表来简略论述,源 1.0 的中文数据集蕴含了有互联网中文社区近五年的所有数据,以及一些公开数据集、百科、电子书等原始语料,总计超过 800TB。咱们对原始语料做了过滤转换、去重,之后构建了打分模型对所有的样本语料进行高质量和低质量的断定。通过一系列的解决,最终咱们失去了 5T 的高质量中文语料数据集,这个语料数据也是目前中文语料当中规模最大,品质最高的语料库。咱们的一些合作伙伴也拿咱们公开的语料数据进行了一些模型的预训练,也是胜利登顶了 CLUE 等测评榜单。
源大模型的构造上也做了一些翻新,一方面是 2457 亿的参数,这个参数次要是基于 Transformer 的解码层构造进行了重叠,也首次面向计算的效率和精度优化方面做了大模型的结构设计,针对 Attention 层和前馈层的模型空间结构也做了一些优化。咱们改良的注意力机制来聚焦文章外部的分割,之后在整个计算过程当中咱们也采纳了张量并行、流水并行和数据并行三大并行形式来做模型的联结优化,从而晋升模型训练的效率。
源大模型在整个训练阶段,因为模型构造和模型参数如此微小,就须要更大规模的算力跟算力优化的能力反对。浪潮信息供应了寰球五分之一,中国 50% 的 AI 服务器,并且在 MLPerf 等等这些与 AI 计算相干的较量和精度优化、计算优化的较量当中也是取得了十分多的冠军,也连任了 SpecML 的评委的主席,在这些过程当中咱们积攒下来的 AI 计算和性能优化方面的这些能力也在源 1.0 的训练过程当中被反复的赋能,所以咱们的源 1.0 在训练过程当中,有十分弱小的 AI 算力反对。
在大模型训练方面,咱们采纳了 2128 块 GPU,在单个 GPU 上的理论性能和实践性能的比值达到了 45%,远高于 GPT3 和 MT-NLG 等模型的训练过程。对于计算性能的晋升会带来十分大的绿色环保的收益以及人力老本、工夫老本上的收益。
源 1.0 在中文的自然语言测评的 CLUE 的零样本学习和小样本学习测评当中,取得了业界第一的程度,在智源指数 CUGE 下面的评测也取得了总分第一的问题。模型除了可比拟、可量化的评估规范以外也体现出十分丰盛和杰出的中文了解和创作能力,后文也有一些基于源 1.0 落地的利用实例,跟合作伙伴一起开发和赋能的相干案例,也会做一个简短的介绍。
咱们在 WebQA 和 CMRC 的测评下面也横向比拟了过后业界咱们国内的一些模型的程度,能够看到在这两个工作下面咱们也达到了一个业界高水平的问题。
03 基于源 1.0 的技能模型构建
大模型带来优异的精度体现和泛化能力,也带来一系列的问题。模型太大,部署起来会比拟麻烦,因而咱们基于源 1.0 在不同畛域下面针对不同的工作构建了一些技能模型。
在理论利用当中,有 2000 多亿参数的大模型加载所需的显存空间就十分宏大。千亿参数模型须要用 8 张 GPU 卡做部署,推理工夫要达到 6 秒多,而用百亿参数模型只须要 4 张 GPU 卡就能够实现 2 秒钟的推理效率,推理效率的晋升还是比拟显著的,这样的模型在理论的利用当中,尤其是对实时性要求较高的利用是十分占优的。
大模型的更新也比拟艰难,2000 多亿参数的模型,训练和微调的老本十分高,如果训练数据量少起不到对于这么宏大模型的所有参数更新的作用,如果训练数据规模大,尽管它的参数会被整体进行更新,然而会带来两个比拟大的问题,一个是训练老本自身会变得很高,另外一个就是大规模的数据在训练过程当中有可能带来灾难性的忘记,这会导致模型自身原有的泛化能力会有所衰减。还有就是利用艰难,大模型的推理耗时相比传统服务高好多,推理的资源需要也会大很多。千亿参数的模型须要超过 600GB 的显存进行加载,推理工夫超过 6 秒。因而咱们心愿采纳常识迁徙和模型压缩的形式来实现模型蒸馏。
为了构建技能模型咱们对一些典型场景进行了数据收集,一种是古文,古诗文是中国传统文化的一个艺术结晶,因而咱们心愿可能通过古代的技术去开掘现代的文学之美,所以咱们去收集古文类的所有的数据和样本,而后去训练一个古文模型来去实现让大模型来做吟诗作对的这样一个能力。另一个是对话场景,咱们对于自在对话场景收集了超过 2GB,笼罩多畛域多话题的自在对话数据,以它为根底,咱们后续要进行模型的蒸馏。
对于中英文翻译场景,咱们收集了超过 145GB 的英文书籍和百科、新闻等国内官网文档,以及他们对应的中文翻译,冀望在后续能够做翻译的模型。还有一个是问答场景。咱们共收集了超过 3.9G 的公开常识,包含医疗、百科、金融等等多个畛域。冀望在后续能够去做问答的模型来匹配这样的一个常识问答场景。
无论是在做什么样的模型的时候,算法外面叫百算数为先,无论构建什么样的算法,咱们都要从利用场景出手,在咱们的模型开发实际过程当中都是以场景和场景所须要的数据着手,首先进行数据筹备,之后才是相应的模型算法下面的一个开发工作。
在传统意义上或者是在过来咱们的一些算法实际当中,模型压缩个别是压缩到 60%、50%,甚至绝对大一点的时候把模型压缩到原有模型的 40%,咱们想要把千亿参数模型进行 10 倍压缩,而后咱们去摸索在这个压缩过程当中所应用的办法,从相应的实际当中去积攒教训,进一步把百亿参数模型再往亿级参数模型去压缩。
想要做模型压缩,第一个是须要确定参数的初始化办法:一种是采纳 PKD 的 skip 形式,采纳跳层的形式去保留其中须要的层数,使得模型宽度放弃不变的状况下让深度升高,从而达到缩小参数量的目标,这种形式会使模型的形象表白的能力变弱。第二种形式是采纳 Hiddensizetransformation,模型的深度不变,而把模型宽度下面进行一个压缩,但模型特色抽取的能力就会变得十分弱,从咱们的实际当中也发现采纳这样的线性压缩变换都会导致模型在训练过程当中的稳定性变差,模型收敛会出现一个稳定的状态。第三种形式是基于预训练的办法,依据冀望的训练时长和模型推理的提早等要求,事后设定相应的模型构造,在已有的数据上做预训练,把这个预训练进去的模型当做学生模型,在此基础上再用业余数据集联合千亿参数模型,对这个百亿参数模型进行进一步的常识蒸馏,采纳这样的形式升高了模型开发的老本,同时能够很好的保留模型宽度跟深度上的一些构造。
第二个问题是模型的蒸馏的策略。蒸馏的时候到底是以渐进式的常识迁徙形式为主还是以辅助式的常识迁徙的形式来进行模型蒸馏。渐进式常识迁徙的精度和性能体现是比拟好的,然而计算成本很高。
除了以上,还有一种模型压缩的形式是间接同步的领导 studentmodel 外面对应的对应层,在 loss 层面下面做一个加权,采纳这样的形式叫 AKT 的形式,这两种形式的模型精度体现下面差别不大,然而对于采纳 AKT 的形式,在一次训练过程当中能够同步的去更新所有的 Transformer 构造外面所须要的参数,这样它的计算就远比渐进式的形式计算开销要小很多。所以浪潮信息采纳 AKT 的形式来进行模型压缩。transformer 构造外面蕴含的次要有三个货色:Embedding、Hiddenstate 还有 Attentionmatrics。如果在 Embedding 跟 Hiddenstate 下面做常识迁徙,蒸馏前后的矩阵维度是不匹配的。因而咱们对 Attentionmatrics 外面 K、Q、V 三个矩阵做常识蒸馏,能够保障一方面维度不须要去思考这个问题,另外一方面,在 transformer 当中,在最下面的内容里其实提到过,transformer 外面的 K、Q、V 矩阵,一方面做了常识的存储,另外一方面,能够最大限度的保留常识跟关系之间的一些信息。
最终的试验后果,百亿参数的模型在 FewCLUE 下面与千亿参数模型进行比拟,能够看到模型的精度、损失是绝对比拟小的,是能够承受的。而计算资源的需要从 8 个 GPU 降落到了 4GPU,推理提早也从 6 秒始终降至 2 秒,推理性能晋升十分显著。在 webQA 的问答数据集上进行测评,能够看到百亿参数的模型,因为在构建过程当中,通过了常识蒸馏,失去的性能体现甚至优于了原来间接训练进去的千亿参数模型,也是达到了业界当先的水平。
咱们秉承着构建开源社区,晋升大家在大模型外面的利用能力,做了大模型的开源凋谢打算,构建了开源的一个官方网站(air.inspur.com),针对大学或科研机构的人工智能钻研团队、浪潮信息的元脑生态搭档,还有各种智能计算中心,以及对于中文自然语言了解和大模型感兴趣的各类开发人员和开发者进行收费凋谢,大家能够通过官网进行申请注册。开源凋谢的内容包含在官网上有模型的 API,以及高质量中文数据集和相应的解决代码凋谢出了 1T 的数据,这些只需在官网上进行申请就行。
另外,模型训练推理和利用的相干代码也在 github 上进行了开源,咱们秉持一个凋谢的态度,激励并且面向 AI 芯片的合作伙伴与大家单干,做模型相干的迁徙和开发工作。
上图展现咱们开源凋谢的一些工具,在官网下面咱们构建的一个 APIExp 的线上测试工具,能够零代码的去实现对应参数 API 的交互和试验。另外,咱们也提供了沙箱,通过简略的设置,就能够展现出想要设计的开发利用,在上线之后大略是一个什么样的交互方式和交互的后果。
04 源 1.0 大模型翻新及实际
最初,大模型在开源凋谢之后也迎来了十分多的单干,吸引了超过一千三百多的开发者,来自不同的行业和不同的利用场景,注册并基于咱们的源 1.0 大模型,进行不同利用的开发。这里给大家看到的是一些简略的事例,如图是咱们和西安筷子帮独特去开发的公文写作助手,能够反对总结报告、学习心得等等内容的辅助写作。针对长篇写作内容的场景里,咱们在可控文本生成下面做了一系列的钻研,解决长文本内容偏移的问题,生成的文本的语意的一致性也是比同类技术晋升了 26%。
另外咱们做了智能问答零碎,在外部的智能客户的机器人下面,问题匹配率也是达到了 92.6%,而后依赖客服机器人去解决问题的成功率达到 65%。整体的利用应用也是有所晋升,这一个我的项目也是取得了往年哈佛商业评论外面鼎革奖的年度技术冲破奖。
还有一些比拟典型的利用,这个是和咱们的开发者,一起来做的一个 PoC 我的项目,面向数字社区的助理。开发者面向数字社区的工作人员,提供了一款数字助理,通过采纳大模型来模仿到居委会进行投诉,或者是进行征询的居民,而后来模仿他们的对话,并且对工作人员的答复做出一个判断,并且予以评分。通过这样的形式来进步工作人员面对突发状况的应答能力。
在另外一个场景里咱们跟香港的浸会大学的传授一起基于大模型自然语言解决能力,开发一种心理辅导的培训机器人。这种也是基于这样的反向思维,让 AI 去承当心理咨询对话当中的求助者的角色,让咨询师依据心理来做求助的患者。通过这样的形式,咱们能够用大模型模拟可能存在问题的输出,通过规范工作者的工作内容去失去相应规范的答案。这其实也是互联网思维的一个十分典型的叫羊毛出在猪身上,咱们通过这样的形式,也能够获取十分多规范的数据集和针对利用场景下的规范数据集,有这些数据的状况下,反过来之后,咱们再对大模型做微调之后模型就有能力去表演工作人员的角色,而后对心理咨询的患者间接进行辅导。这样的过程其实就是在 ChatGPT 当中提到的 RLHF 的人环强化学习的一种正当的使用。
对于直播课件及视频回放获取形式:
【PPT 课件获取】:关注微信公众号(OpenAnolis),回复“龙蜥课件”即可获取。有任何疑问请随时征询龙蜥助手—小龙(微信:openanolis_assis)。
【视频回放】:视频回放可返回龙蜥官网查看。
—— 完 ——