关于模型:华为高级研究员谢凌曦下一代AI将走向何方盘古大模型探路之旅

36次阅读

共计 5997 个字符,预计需要花费 15 分钟才能阅读完成。

摘要: 为了更深刻了解千亿参数的盘古大模型,华为云社区采访到了华为云 EI 盘古团队高级研究员谢凌曦。谢博士以十分艰深的形式为咱们娓娓道来了盘古大模型研发的“前世今生”,以及它背地的艰巨往事。

本文分享自华为云社区《华为高级研究员谢凌曦:下一代 AI 将走向何方?盘古大模型探路之旅》,原文作者:华为云社区精选。

“每个人都生存在特定的时代,每个人在特定时代中的人生道路各不相同。在同一个时代,有人感慨生不逢时,有人只愿安分……”这是 2021 年北京高考命题作文“论生逢其时”的结尾。

答题的是一位既没上过小学,也没读过初中、高中的非凡考生。他只是在短时间内学习了大量人民日报的文章,而后凭借本人的浏览了解、文本联想以及语言生成能力,写出这篇看似“像模像样”的高考作文。

是的,它是一个 AI——华为云盘古大模型,就在 2021 世界人工智能大会(WAIC2021)上刚被评比为大会的“镇馆之宝”!在现场,观众可与大模型互动,间接给对方出题。比方,一句“明明明明明白白白喜爱他,但他就是不说,他很高冷。”这句话里,“明明”显示一个人名,而后又作为形容词,且整句须要断句。但当记者向大模型发问“白白喜爱谁?”时,大模型很快答复“明明”。答复正确!

尽管盘古没有寒窗苦读十几年,但它也经验了上亿参数的“学习”。

咱们再来看个例子,比方了解上面这两句话:

  1. 小明在读书,通过一直保持,克服各种艰难,最初读完了。
  2. 小红在画画,期间遇到了很多艰难,最初也实现了这副画作。

尽管下面两句话的人物和事件都不雷同,但盘古也能和咱们人类一样,从中提取一个雷同的含意:持之以恒。这个能力其实曾经在华为开发者大会(Cloud)2021 现场有所展现。咱们不禁想问道盘古大模型是如何做到如此“痴呆”的呢?

为了更深刻了解千亿参数的盘古大模型,华为云社区采访到了华为云 EI 盘古团队高级研究员谢凌曦,思考到大模型波及到的一些技术比拟艰涩,所以谢博士以十分艰深的形式为咱们娓娓道来了盘古大模型研发的“前世今生”,以及它背地的艰巨往事。

华为云 EI 盘古团队高级研究员 谢凌曦

何为大模型:AI 落地千行百业的必由之路

神话传说里,盘古开天辟地,宇宙从一片混沌变得有序。谈及盘古大模型,谢凌曦从人工智能的诞生开始说起。

“上世纪 50 年代,AI 概念被提出,人们应用人工设计规定的形式去定义 AI;到了 80 年代,在大数据的浪潮下,人们通过训练数据模型的形式来实现 AI;前期随着数据规模扩充以及算力的倒退,深度学习掀起新浪潮,各种 AI 模型不断涌现。”

“直到近两年,咱们开始将跨畛域的常识整合到 AI 模型中,基于 Transformer 构造的各种大模型呈现,包含 OpenAI 的 GPT-3,以及盘古大模型。它们关上了深度学习模型的规模与性能独特倒退的场面,达到了深度学习畛域新的高度。”谢凌曦说道。

过来十年,AI 算法对计算资源的需要增长了 40 万倍,神经网络从小模型到大模型曾经成为了必然的发展趋势。 大模型可能解决 AI 模型定制化和利用开发碎片化,它能够排汇海量的常识,进步模型的泛化能力,缩小对畛域数据标注的依赖。

大模型一方面激活了深度神经网络对大规模无标注数据的自监督学习能力,同时对于 AI 框架的深度优化和并行能力都有很高的要求,是深度学习框架下将 AI 做到极致的集大成者。“从传统办法到深度学习,这是一次大的跳跃,而在深度学习这个台阶上,大模型曾经站在了最后面,期待着下一个台阶的呈现。”

以后盘古系列超大规模预训练模型,包含 NLP 大模型、CV 大模型、多模态大模型、和科学计算大模型。 模型大意味着它排汇了海量数据常识,以盘古 NLP 大模型为例,它学习了 40TB 的中文文本数据;盘古 CV 大模型则蕴含了 30 亿 + 参数。这些数据进步了大模型的泛化能力,晋升算法对陈腐样本的适应能力,从而学到隐含在数据背地的法则,缩小对畛域数据标注的依赖。

谢凌曦进一步解释道,一方面大模型能够从无标注数据上更加通用的将常识迁徙到指标工作上,进而晋升工作性能;另一方面,通过预训练过程学习到更好的参数初始点,使得模型在指标工作上只需大量数据就能达到不错的成果。

当大模型能够从小数据样本中学习更多,就能帮忙咱们关上走向通用 AI 的大门,它能够解决 AI 模型定制化和利用开发碎片化的难题。

谢凌曦给咱们算了一笔账,他认为 AI 算法落地难不是因为它无奈解决理论问题,而是利用场景太狭隘,每个痛点都须要定制化开发,从而导致投入的老本和人力过高。

一旦场景变动,整个模型可能都须要从新开发。 而大模型是一种工业化 AI 开发的新模式,能够解决小模型的定制化难题,让一个模型能够利用到多个场景中,让 AI 真正落地到千行百业中。

所以,作为这个时代倒退的必然产物,大模型值得咱们下功夫去开掘,去摸索深度学习、乃至 AI 的下一个阶段会是怎么的状态。

在这之前,咱们须要先弄明确大模型是如何被炼成的。

不止参数,盘古 NLP 和 CV 大模型有更多“绝招”

谷歌 1 月份提出 1.6 万亿参数大模型 Switch Transformer;
英伟达、斯坦福联结 MSR,独特训出了 10000 亿参数的 GPT;
智源研究院公布 1.75 万亿参数大模型悟道 2.0;
……

在各种新闻报道中,咱们很容易将大模型的冲破归功于亿级别的参数。

谢凌曦颠覆了这个刻板印象:“量大和多样是大模型的必然要求,但参数并不是掂量模型能力的最佳指标。如果将大模型训练的中间状态都存储下来,做个简略的交融,咱们甚至能够把模型的参数量乘以一个十分的数,甚至能够说当初曾经有百万亿、千万亿参数的模型,但这并不会对模型的成果有很大的帮忙。 因而,参数量这个指标,并不是大模型强弱的最终评定规范。”

大模型是一种兼顾了数据预处理、模型架构、算法训练与优化的一套残缺体系,即使有足够的算力、原始数据、原始模型,也并不象征可能做出真正跑得通的大模型,这其中十分考验技术研发和协同能力。

但毋庸置疑的是,数据越多,大模型学到的也就越多。“只有你给它足够多的数据,让他‘死记硬背’,它的理解能力的确会加强。”什么样的数据决定了模型有什么样的根本成果。谢凌曦示意,基于大量的参数,模型可能学会数据之间的关系,形象出逻辑能力,更加智能化。

盘古 NLP 大模型

在最近的 CLUE 榜单上,盘古的 NLP 模型在总榜、浏览了解排行榜和分类工作排行榜上都位列第一,总榜得分比第二名高出一个百分点。为了阐明盘古的 NLP 模型是如何在理解能力上靠近人类的,回到文章的结尾,谢凌曦举了咱们开篇提到的那个“持之以恒”的例子解释:

  • 小明在读书,通过一直保持,克服困难最初胜利了。
  • 小红在画画,期间遇到了很多艰难,最初也实现了这副画作。

人类能够很容易的通过逻辑判断能力晓得两件事表白的是同一个意思:持之以恒,但大模型须要大量的数据投喂和学习,去捕获元素与元素之间的关系,比方两段文本之间的关系,几段文本之间,哪两段之间关系更近一些,能力得出逻辑性的判断论断。

还是下面的例子,如果把 2 改成为“小明在读一本书,期间遇到很多艰难,可最初也没能读完”,这样 1 和 2 的文字十分类似,但其实两者表白的是齐全不同的含意。

大模型须要学会判断这种关系,谢凌曦解释道:“表征(从文本和图像中间接抽取的简略特色)和语义之间的关联性是极其简单的,人可能了解,但让计算机去了解并建设计算模型就十分艰难,大模型就心愿以大数据的形式以及堆砌大量可训练参数去实现这件事。”

如果想要大模型了解咱们的逻辑世界,参数之外的功夫也至关重要。

首先,千亿参数的大模型每优化一次就会消耗微小的老本,牵一发而动全身。所以谢凌曦和团队抉择在预训练阶段退出基于 prompt 的工作,升高微调难度,解决以往大模型为不同行业场景进行微调的艰难。在上游数据短缺时,微调难度的升高使得模型能够随着数据变多而继续优化;在上游数据稀缺时, 微调难度的升高使得模型的少样本学习效果失去显著晋升。

盘古 NLP 大模型架构

另外,在模型构造下面,跟传统其余企业训练的 NLP 大模型的形式不同,盘古看重的不仅是大模型有生成能力,还要有更强的理解能力。 华为采纳了 Encode 和 Decode 的架构,来保障盘古大模型的在生成和了解下面的两个性能。

盘古 CV 大模型

针对盘古 CV 大模型,谢凌曦同样先举了一个例子:如何辨别红色猫和红色狗的图片?人类看到这两张图片能一眼辨认进去哪只是猫,哪只是狗,那么大模型面对这些是如何解决的呢?

咱们须要让模型在训练的过程中,理解这些样例之间真正强关联性的货色。”谢凌曦强调图像中十分重要的一个货色就是层次化的信息。“在判断图像的过程中,首先要把握好图片中层次化的信息,可能疾速的定位到图片中哪局部信息是起决定作用的,让算法以自适应的形式去关注比拟重要的中央或内容,这样就容易捕获样本之间的关系。在这两张图片中,很显著红色不是最重要的信息,动物才是图片中起决定性的信息。”

盘古 CV 大模型架构

基于此, 盘古 CV 大模型首次兼顾了图像判断与生成能力,能同时满足底层图像处理与高层语义的了解需要,同时可能交融行业常识的微调,疾速适配各种上游工作。

另外,为了解决模型大,数据多带来的学习效率低,表征性能弱的问题,盘古 CV 大模型在预训练阶段次要集中在数据处理、架构设计和模型优化三个阶段进行优化。目前盘古 CV 大模型在 Image Net 1%、10% 数据集上的小样本分类精度上均达到目前业界最高程度。

在 CV 大模型中,除了利用一些业界通用的算法, 其中也有华为自研的算法,比方在视觉中强行给模型注入一些层次化的信息,让模型可能学的更好。

而每个自研算法的的背地,其实都是团队解决每一个艰难之后的贵重经验总结。

大模型研发很难,还好有他们

在整个盘古大模型的研发过程中,难点很多,比方上文提到的独创算法,因为除了架构和数据,算法是十分外围的技术。

谢凌曦具体谈了谈其中的一个技术难点: 无论是文本信息,还是图像信息,表征上看起来类似的货色,语义了解上却截然不同。

“咱们从问题登程,发现视觉特色是一个层次化的捕获过程,表征的一些特色更多的是集中在浅层特色外面,但到了语义就更多体现在深层特色外面。所以,须要咱们在不同层面上把这些特色对齐,这样能力学的更好。同样,在 NLP 上须要将模型的注意力放在一个最合适的中央。这个关键点也是通过简单的神经网络寻找到的,而并非轻易在一段文字中利用算法去找到关键点。”

这是一个很艰深的解释,技术细节绝对会更简单和难以抽象化形容。但这个问题也只是冰山上的一角,整个大模型的研发中,谢凌曦和团队要一直去开掘表象问题的实质,解决相似的技术难题。

另一个比拟辣手的问题是模型的调试运行。为了从预训练获取更多的常识,盘古大模型的数据必定会越来越大,对底层的硬件平台性能要求更高。 此时,预训练的成果,看的也曾经不是模型自身,而是基础设施构建得是否足够优良。

比方运行大模型须要足够的机器提供短缺的算力,但一台机器最多只能装置 8 个 GPU 卡。NLP 大模型须要上千个 GPU 卡,即便是较小的 CV 大模型,也须要 128 块 GPU 同时运行,所以必须有一个十分好的机制去正当调配资源。

巧妇难为无米之炊,最开始的时候谢凌曦也很苦恼,谁来撑持大模型的运行呢?实践证明,华为云为盘古提供的可多机多卡并行的云道平台起了大作用。云道平台可能轻松分配资源,防止因基础设施问题导致的盘古研发进度碰壁,它同时能够将数据,以最合适的格局存储在服务器上,以便在应用过程中更无效的读取。

不仅如此,大模型的艰难也难在工程上,华为 CANN、MindSpore 框架、ModelArts 平台协同优化,充沛开释算力,为盘古大模型提供了弱小的背地撑持:

  • 针对底层算子性能,基于华为 CANN 采纳了算子量化、算子交融优化等技术,将单算子性能晋升 30% 以上。
  • 华为 MindSpore 创新性地采纳了“流水线并行、模型并行和数据并行”的多维主动混合并行技术,大幅升高了手动编码的工作量,并晋升集群线性度 20%。MindSpore 开源框架加持,如何「炼出」首个千亿参数、TB 级内存的中文预训练语言模型?粗疏解读了这些关键技术。
  • ModelArts 平台提供 E 级算力调度,同时联合物理网络拓扑,提供动静路由布局能力,为大模型训练提供了最优的网络通信能力。

但家喻户晓,大模型之所以大,本源在于“数据多、模型大”,这就带来模型的训练老本高。以 GPT- 3 为例,训练一次老本是 1200 万美金。谢凌曦感叹道,“ 大模型调参自身就十分艰难,每一次模型训练之前,都须要当时在很多小的场景中做验证工作 。每一次模型的训练都须要确保十拿九稳,不能呈现曾经开始训练,却有一个 Bug 存在的景象”。

为“利用”而生,盘古赋能更多用户

大模型训练在各方面冲破,也为不足大量数据的行业铺上接入智能时代的轨道。正如华为云人工智能畛域首席科学家、IEEE Fellow 田奇传授在公布盘古大模型所提到的,盘古大模型是为各行业的利用而生,盘古具备前所未有的泛用性,无论是 2B 场景或是 2C 场景。

行业常识来源于行业数据,盘古团队应用了大量行业语音和文本数据,借助这些数据进行微调,模型的行业特定用意和常识理解能力得以大幅提高。

以盘古 CV 大模型为例, 其在电力巡检行业中体现出超强的利用能力。它利用海量无标注电力数据进行预训练,并联合大量标注样本微调的高效开发模式,节俭人工标注工夫 。在模型通用性方面,联合盘古搭载的主动数据增广以及类别自适应损失函数优化策略,极大地升高了模型保护老本。

谢凌曦还谈到,除了行业的利用,面向开发者方面, 盘古大模型正在逐渐上线到 AI 资产共享社区(AI Gallery)。前期会陆续开启邀测制,请大家敬请期待 。在平台上盘古会开发出一些比拟艰深易用的工作流:如果你是有肯定根底的开发人员,能够从工作流中做更多的定制化开发,更好地开释预训练模型的能力;如果你只是一个 AI 开发小白,想用大模型做简略的 AI 开发,盘古也会给你更加通俗易懂的界面,让大家用一些利落拽的形式去实现。后续盘古会针对开发者推出系列的课程,领导开发者基于盘古大模型在实际场景中开发利用。

另一方面,盘古也心愿和开发者共成长。“大模型只是一个抓手,让它利用到理论场景中。不仅更好的帮忙用户进步训练的进度和缩短训练的工夫,而且模型上的利用数量增多,用户的老本自然而然就升高了。”谢凌曦示意, 盘古的倒退单靠咱们团队是远远不够的,咱们还须要和开发者一起建设好这个生态。

最初

谈到盘古大模型的将来,谢凌曦有个简略的小指标—— 把盘古推向下一个技术暴发点 。AI 大模型是深度学习的最高阶段,往下走可能是一条平的直线,大家都在期待跳跃的那一天。华为云始终在致力,用各种原创技术去推动,解决 AI 开发者理论会遇到的问题,最实质的目标是赋能千行百业的 AI 落地。

道阻且长,行则将至。

正如盘古大模型的名字一样,华为也心愿以大模型为抓手,把 AI 推向一个前所未有的高度,让咱们往下一代 AI 去走,劈开 AI 将来路线上的“混沌”。

点击关注,第一工夫理解华为云陈腐技术~

正文完
 0