作者:李鹏,王玮,陈嘉乐,黄松芳,黄俊
单位:阿里云智能机器学习平台PAI & 达摩院自然语言根底技术
概述GPT模型能较好的解决文本生成畛域的各种工作,比方文本补全,自在问答,完形填空,写作文,写摘要,写小说,写诗歌等等。最近火爆全网的人工智能产品ChatGPT也是以GPT文本生成模型为底座。尽管GPT大模型作用在这些应用领域的成果很好,然而训练老本十分高。以OpenAI推出的1750亿的GPT-3为例,在1024张A100GPU上预估须要34天,一万亿参数的GPT-3在3072张A100显卡上也至多须要84天;微软/英伟达联合推出的5300亿的NLG模型,在2048张A100显卡上耗时了3个月的训练工夫能力达到比拟好的收敛成果。
针对GPT根底模型参数量大,训练&推理硬件资源耗费过低等问题,基于MoE的稠密化训练是目前最具竞争力的降本增效路径。MoE的全称是Mixture of Experts,其中的Expert对应的是Transfomrer模型的MLP层,在训练的时候从多个MLP中选取一个MLP进行激活(如下图所示)。这意味着模型能够在不减少计算强度(FLOPS/Bytes)的状况下,通过减少MLP模块的数量来减少模型参数量级,进而晋升模型在上游工作上的泛化性能。采纳MoE后的稠密Transformer模型和等同品质(验证集loss以及zeroshot nlu上游工作性能)的浓密模型相比有将近1.2倍的训练吞吐性能晋升,1.3倍的推理吞吐性能晋升。咱们在稠密架构总体设计的时候,抉择让MoE跟纯Transformer Decoder架构的GPT进行有机联合。起因是MoE跟Decoder联合成果通常会好于跟Encoder的联合成果。具体来讲,Encoder是通过随机masking的形式学习语言模型,而这种被随机masked的token会让expert的路由抉择呈现不平衡。另一方面,思考到Decoder类的GPT模型比Encoder类的Bert模型有更宽泛应用场景,因而咱们采纳GPT+MoE的技术架构路线,摸索单机最高能效的绿色低碳GPT大模型训练&推理软硬一体化适配技术在中文文本生成场景的落地可行性。
基于以后比拟成熟的分布式MoE专家路由抉择技术,采纳Switch Transformer[2]中的top-1路由机制。每个Expert依据如下的softmax函数被赋予一个概率值,取概率最高(top-1)的那个Expert当作网络的FFN层。其中W_r是做路由抉择时须要学习的参数。
GPT-MoE训练&推理能效剖析根底预训练模型训练&推理性能剖析任何一种浓密(Dense)的GPT模型,都有一种成果与之对应的训练&推理速度更快的稠密(MoE)GPT模型。咱们的指标是在受限硬件比方单机条件下找到这种GPT-MoE模型配置,而后通过对MoE算法进行改良来进一步晋升它的训练能效。咱们通过比照浓密&稠密模型的训练&推理性能,来发现与浓密模型等价的高能效稠密模型。
8种GPT模型的参数量,模型构造,训练超参数如下表所示:
如下图所示,1.3B+MoE32/64模型在雷同的step下比照1.3B dense体现出更低的验证集loss,其中1.3B+MoE-64模型的loss甚至低于2.7B dense模型
5个模型中,0.35B+MoE-64的训练吞吐速度最快,是其余模型的2倍左右。其余四个模型中,吞吐速度较高的是1.3B dense和1.3B+MoE-32,1.3B+MoE-64和2.7B dense的速度相近。如下图所示:
![]()
推理吞吐速度方面,1.3B Dense的显存耗费起码,0.35B+MoE64的提早最低。
input_len = 20
output_len = 128
batch_size = 1
通过以上的图表剖析,咱们能大抵判断出2.7B-Dense模型对应的高能效的稠密模型是以1.3B的dense模型为底座,同时配置32或者64个专家的MoE模型。上面咱们重点剖析下1.3B+MoE-32/64和2.7B dense模型的性价比。在单机A100上预训练200个小时后,借助Tensorboard画出预训练验证集loss曲线。咱们发现在验证集loss达到2.16时,1.3B+MoE-64模型的收敛速度是2.7B dense的1.17,1.3B+MoE-32的收敛速度落后于2.7B dense模型15%,如下图所示:
从下图中的基于Faster Transformer的单级单卡推理性能上看。1.3B+MoE-32和1.3B+MoE64的吞吐速度差不多且都高于2.6B dense模型,这是合乎预期的,因为他们的底座大小都只有1.3B。
![]()
中文ZeroShot-NLU成果评测
中文文本生成成果评测文本补全
诗歌生成
在线体验地址:https://www.modelscope.cn/models/PAI/nlp_gpt3_text-generation_0.35B_MoE-64/summary
广告文案生成
在线体验地址:https://www.modelscope.cn/models/PAI/nlp_gpt3_text-generation_1.3B_MoE-32/summary
输出prompt类型#裙色彩#红色格调#清爽图案#刺绣裙下摆#花边裙长#连衣裙裙领型#v领*裙样式#抽褶类型#裤*材质#羊毛达摩院 1.3B Dense (51200)这款连衣裙采纳了清爽的红色调,给人一种清新的感觉,同时,还带来了清新的视觉感。裙身上的刺绣图案,粗劣好看,尽显浪漫的气味。而v领的设计,则为其削减了几分优雅的气味。再加上褶皱的裙摆,更是削减了灵动的感觉。这款羊毛裤,采纳了羊毛的材质,手感柔软,衣着舒服,且不易变形,且不易变形,耐穿性强。裤子的版型是有点微微的,能够很好的润饰腿型,拉长腿部比例,显得腿部更加修长。达摩院 2.7B Dense (51200)连衣裙是每个女们的必备,这款连衣裙采纳了清爽的绿色调,带来一种清爽淡淡雅的气质,同时也带来清爽的视觉效果。v领的设计,更能衬托出柔美的天鹅颈,还能够很好的润饰脸型和脸型,更好的展现出女性的柔美。>裙子上的花朵刺绣花边装璜,更具时尚气味,更是让人眼前一亮。针织衫采纳优质的纯棉,手感柔软,衣着舒服透气,穿上身不勒身形。裤身采纳了弹力的针织面料,手感舒服,衣着舒服亲肤。裤腿处的侧边采纳的闭口设计,不仅能够起到润饰腿部的作用,又可能更加的显腿长,同时也能让你轻松领有型。PAI 0.35B+MoE-64 (70k)这款连衣裙采纳了清爽的红色调,搭配粗劣的刺绣花边,尽显甘甜气质。v领的设计,润饰脸型,衬托出粗劣的脸庞。褶皱花边的袖口,更显甘甜气质。这款裤子采纳了羊毛的面料,具备较好的弹性和透气性,衣着起来舒服。裤子的版型设计,可能很好的润饰腿型,让你看起来更加的修长。裤子的版型设计,可能很好的润饰腿型,让你的腿部看起来更加的修长。PAI 1.3B+MoE-32 (70k)这一款碎花连衣裙采纳了粗劣的刺绣花朵,清爽的气味。清爽的花边,更加的清新鲜,让你在春节令的感觉。经典百搭的一款针织衫,在视觉上的设计,让你的同时也很好的穿搭。这款牛仔裤子的裤子采纳了通过的设计,更是很好的润饰身材的腿型,衣着舒服又不紧。PAI 1.3B+MoE-64 (70k)清爽的粉红色连衣裙,穿上身后可能衬托出女性的柔美。领口处采纳的是花边的设计,让整体的层次感更加的粗劣,更能凸显甘甜。圆领的领口设计,更加的润饰脸型,更显粗劣,而且不挑人的脸蛋糕裙摆,更能凸显女性的粗劣魅力这款裤子的版型设计,能够说是腿部的地位,能够很好的拉长了身材比例,而且不会有紧绷的成果,让人看起来更加的有型。而且有着很高的剪裁设计,可能很好的润饰腿型,还能很好的遮肉,让腿部的肉肉,还能很好的展示你的腿部的曲线。作文生成
在线体验地址:https://www.modelscope.cn/models/PAI/nlp_gpt3_text-generation_1.3B_MoE-64/summary
输出prompt信赖老板商店还给气喘吁吁漂亮成为事实忘不了真切达摩院 1.3B Dense (51200)回到家,我和老妈气喘吁吁地赶到左近的小店去买了一张贺卡。我把写得一片“对联”的纸贴在“商店”的墙上,还给老板20元钱。老板还给我做了一个“会飞”的邮局董事长呢!我还在纸上写了一些祝福语。老板还夸我是一个诚恳的好孩子呢!最初,我还当上了董事谁不曾有过那种梦呢?谁不曾有过那种漂亮,让人向往的漂亮呢?当你忘不了那些令人向往的梦时,那是一种如许引诱而又漂亮的梦啊!在那里人们能够大肆的沉醉一番,而在那里人们也能够过目不忘,可为什么呢?梦总是那么深远大,而又有多远大的吸引力。达摩院 2.7B Dense (51200)回到家,我急不可待地把这件事说给了他们,他们听,我刚说完还打动万分,立即向商店去买了盒方便面。谁知>商店里的老板娘火冒三丈,拿起了那盒快就筹备好的方便面。“还给?”我急得心都快跳了进去。这时,走进商店,妈妈拿起一件外套心仪已是生了。谁不曾有过那样的梦呢?谁不曾有过那样的现实呢?这毕竟是过来,而未来又会成为事实,忘不了的事,成为记忆中的一页记忆。这其中当然蕴含了许多情理,也有很多无奈用言的货色,但它们都会成为我心中最漂亮的梦幻,我迷恋着漂亮而令我向往的梦!PAI 0.35B+MoE-64 (70k)回到家,我把我做的手工事如数家珍地通知了他,老板气喘吁吁地说:“你怎么能够这样做!你这样做是不对的,咱们应该把你的信赖还给你,你看行不行?”听完后,我心情舒畅多了,心想:我当前做事肯定要仔细。于是,我便把信赖还给店里,到了商店,把我买下的信谁不曾有过漂亮的梦?谁不曾有过梦的历险?谁不曾有过漂亮的梦?谁不曾有过梦的迷茫?谁都不曾有过梦的真切?我忘不了我的梦,我的梦是成为一名画家;我忘不了我平凡的梦:成为一名作家;我忘不了我的梦是成为一名画家;我更忘不了我的漂亮中国PAI 1.3B+MoE-32 (70k)回到家,我便气喘吁吁地冲到商店,把钱还给老板说:“老板,你,你,我说话算数,还剩15元钱,够本就行了!”老板依然不信赖我,问道:“怎么回事?”“把钱拿去还给老板。”我只好硬着头皮罢了。谁不曾有过这样的梦呢?仿佛很真切,让人忘不了,也很难设想;仿佛很难设想,但它究竟是事实,梦究竟是漂亮的, 即便梦不是设想,它究竟是真切,因为漂亮的事物总有被咱们疏忽的一面而不被咱们疏忽存而已。梦永远在身边,却不在身边,只有随心走PAI 1.3B+MoE-64 (70k)回到家,老板气喘吁吁地说:“我还给你买了一件衣服,你快去商店给老板买一件衣服吧!我还给你买了一件衣服,你快去商店吧!”老板还不停地点着头。老板不信赖他,他就把钱还给了老板。谁不曾有过那种梦呢?我想,那肯定是漂亮的梦,可是事实却真切的梦,成为了事实中实在的梦,让人难以忘却。我想,这就是我梦中的漂亮梦。我的梦,成真而又实在的梦,让人忘不了。自研GPT-MoE算法翻新&试验剖析背景Top-1 Gating 是目前最支流也最无效的 Routing 算法,然而也有着显著的毛病。例如,在 Top-1 Gating 中,每一个 Token 仅会被交给一个 expert 解决,因而,时常会呈现某些 expert 须要解决很多 token,而有些 expert 仅需解决极少数量的 token 的状况,这导致解决极少 token 的 expert 无奈取得足够多的信息,无奈失去充沛的利用。
...