关于机器学习:MindSpore-15上线啦

47次阅读

共计 5328 个字符,预计需要花费 14 分钟才能阅读完成。

空山新雨后,天气晚来秋~~ 通过 MindSpore 社区开发者们怠惰耕耘,在这个丰登的节令,为大家奉上全新的 1.5 版本,在这个版本中咱们正式公布 MindSpore 中文名:昇思,心愿大家可能喜爱!

此同时为大家带来全新科学计算行业套件 MindScience、亲和算法库 MindSpore Boost、反对混合专家(MoE)与异构并行、集群调优反对大规模分布式训练,并欠缺控制流应用,新增对外开放机制等诸多新个性,在使能科研翻新和利用中一直致力,上面就带大家疾速浏览 1.5 版本的要害个性。

请在微信中关上进行观看

一 MindScience 科学计算行业套件,为高性能迷信利用提供计算新范式

以后多种算力正在激发跨畛域的利用交融,AI 曾经成为钻研科学计算的新范式。因而咱们将 MindSpore 拓展到科学计算畛域。

通过多尺度混合计算和高阶混合微分两大要害翻新,将 MindSpore 原有的 AI 计算引擎降级为 AI 与科学计算的对立引擎,实现交融的对立减速。在此基础上,咱们打算面向 8 大科学计算行业打造 MindScience 系列套件。这些行业套件蕴含业界当先的数据集、根底模型、预置高精度模型和前后解决工具,减速迷信行业利用开发。

以后,咱们推出面向电子信息行业的 MindElec 套件和面向生命科学行业的 MindSPONGE 套件,别离实现了电磁仿真性能晋升 10 倍和生物制药化合物模仿效率晋升 50%。

查看介绍:https://www.mindspore.cn/mind…

  1. MindElec v0.1

MindElec 电磁仿真套件次要由多模数据转换、高维数据编码、根底模型库以及多频信号网络优化等组成,同时反对时域和频域的电磁仿真。其计算过程如下:利用 MindElec 多模数据转换技术将简单的 CAD 构造转换成 AI 亲和的张量数据,高维的张量数据通过编码方式进行压缩,大幅缩小存储和计算量,压缩后的张量数据进入翻新的 AI 电磁仿真根底模型进行训练,训练过程联合多频信号网络优化技术晋升模型精度。

MindElec 0.1 版本在手机电磁仿真畛域已获得技术冲破,仿真精度媲美传统科学计算软件,同时性能晋升 10 倍。

  1. MindSPONGE v0.1

MindSPONGE 是由高毅勤课题组(北京大学、深圳湾实验室)、华为 MindSpore 团队联合开发的分子模仿库,具备高性能、模块化等个性。

MindSPONGE 本次独立成仓,演进为 0.1 版本,新增反对分子动力学中常见的系综模仿蕴含 NVT、NPT 等,例如进行新冠病毒 Delta 毒株模仿,模仿后果无效反馈病毒毒性加强,符合实际状况。MindSPONGE 是第一个根植于 AI 框架的分子模仿工具,以后已内置 Molecular CT,SchNet 等 AI 神经网络,可用来进行势能函数的拟合,例如 AI 力场模仿克莱森重排反馈,高效进行交融 AI 的分子动力学模仿,可看到体系在七元环和三元环之间进行转化。

抗生素的呈现让人类的寿命缩短了数十年,然而,因为细菌的耐药性变强,人类迫切需要寻找到下一代抗生素——抗菌肽(作为一种能够无效杀灭耐药性病原菌的肽类物质)。MindSpore 团队与鹏城实验室等团队合作开发的鹏程. 神农平台具备弱小的氨基酸序列生成能力,其利用鹏程. 盘古大模型实现预训练再通过 finetune 生成新的氨基酸序列,无望极大晋升新型抗菌肽的发现速度。

二 主动并行反对混合专家(MoE)与异构并行

既联结中科院公布寰球首个三模态大模型—紫东. 太初,又实现遥感畛域超分辨率图像主动切分。

  1. 混合专家(MoE)及其并行

基于 Transformer 扩大的大模型是以后各种大模型的骨干,当初,混合专家(Mixture of Expert,MoE)构造成为扩大 Transformer 的一种关键技术。

如下图所示,Transformer 中每层是由 Attention 和 FeedForward(FFN)这两个根底构造组成的。将 FFN 看做是一个专家(expert),MoE 构造是由多个专家并行组成,其入口是一个路由器(router),负责将 token 分发给各个专家,能够有多种路由策略可抉择(如 Top,Top2 等),其进口是加权求和。

MoE 已被验证过在多种工作上有优异的成果,是万亿以上大模型的根底构造。MindSpore 1.5 版本已实现了 MoE 的构造和专家并行的性能:容许多专家在多设施上并行执行。如下图所示,路由器(数据并行)通过 AllToAll 算子将 token 调配到各个设施上的专家进行计算,而后,又进过 AllToAll 将后果汇聚。

MindSpore MoE 的代码实现详见:https://gitee.com/mindspore/m…

  1. 异构并行

受限于 GPU/NPU 设施的内存瓶颈,无效利用 Host 端的内存成为解决大模型扩大的一种可行的路径。异构并行训练方法是通过剖析图上算子内存占用和计算密集水平,将内存耗费微小和适宜 CPU 解决的算子切分到 CPU 子图,将内存耗费较小计算密集的算子切分到硬件加速器子图,框架协同不同子图进行网络训练的过程,可能充分利用异构硬件特点,无效的晋升单卡可训练模型规模。

对于大规模预训练模型,其次要的瓶颈往往在于参数量过大,设施显存无奈寄存下来。MindSpore1.5 版本在解决大规模预训练网络时,能够通过优化器异构将优化器指定到 CPU 上,以缩小优化器状态量显存占用开销,进而扩大可训练模型规模。如下图所示,将 FP32 的 Adam 优化器搁置于 CPU 上进行运算,能够缩小 60% 多的参数显存占用。

查看文档:https://www.mindspore.cn/docs…

MindSpore 联结中科院自动化所公布寰球首个三模态大模型—紫东. 太初,多模态高效协同撑持图文跨模态了解与生成性能当先 SOTA、视频了解与形容性能寰球 No.1,继续赋能行业,助力人工智能产业凋敝倒退。

  1. MoE+ 异构并行,实现 32 卡训练 2420 亿参数模型

咱们应用 MoE 构造扩大鹏程·盘古模型 [1],同时利用了专家并行 + 异构并行 + 数据并行 + 模型并行。如下示意图,将优化器相干的状态及其计算放到 CPU 端。在 MoE 构造中,同时利用了模型并行和专家并行,即在同一专家会切分到 Server 外部,如图中 Server 1 上的 FFN1 被切分到了两个设施上,由此产生的模型并行 AllReduce 会产生在 Server 外部;而不同 Server 的对应设施间是数据并行(和专家并行),即 Server 1 上的 Device 1 与 Server 2 上的 Device 1 是数据并行(和专家并行),Server 1 上的 Device 2 与 Server 2 上的 Device 2 是数据并行(和专家并行),由此产生的 AllToAll 会产生在 Server 间。AllToAll 用于实现数据并行到专家并行的转换和专家并行到数据并行的转换。

咱们别离在 8 卡、16 卡、32 卡昇腾设施上验证了优化器异构和专家并行对训练模型规模晋升的成果,如下图所示,应用优化器异构根本都能达到 3 倍的模型规模晋升,在 8 卡上能够跑到 612 亿参数量,16 卡上能够跑到 1210 亿参数量,32 卡上能够跑到 2420 亿参数量的模型规模。

  1. 超分辨率图像主动并行,解决遥感影像“大幅面、多通道”的解决难题

超分辨率图像往往十分大,以遥感图像为例,分辨率是 4 3000030000,一张图片约 14GB,单卡受限于内存无奈实现计算,须要对图片进行多机多卡的并行处理。

在数据处理的过程中,反对对大幅面遥感影像的解码和数据加强,针对单样本尺寸大的特点,框架依据集群规模的大小,主动将大幅面数据切分成适合的大小(如切分 H、W 维度),并散发到不同的计算节点,以解决显存有余问题。

在训练和推理过程中,因为网络将对图片进行大量的卷积等计算,而图片的 H、W 维被切分后,对每个计算节点来说,可能有局部边缘特色信息存储在其余节点上,框架将自动识别边缘特色信息的散布状况,采纳相邻节点替换等通信技术对散布在周边节点上的特色信息进行整合,最终保障网络执行后果无精度损失。

三 推出亲和算法库——MindSpore Boost

家喻户晓,训练是一个简单的计算过程,端到端训练蕴含很多步骤。如下图所示,深度学习训练过程自身是个高冗余的计算过程,须要围绕多个模块别离进行计算优化,最终实现不同 AI 场景下端到端训练的效率优化。

端到端训练因素

在 MindSpore 1.5 版本中,华为地方媒体技术院与 MindSpore 独特推出亲和算法库 MindSpore Boost 1.0,指标都是为了在不同的 AI 场景下,放弃用户训练精度的同时,为用户提供高效的训练体验,蕴含数据、网络、通信、训练策略和优化器等维度的减速算法,架构图如下所示。

MindSpore Boost 1.0 架构

除了亲和算法外,咱们还提供繁难模式,进行算法封装,为用户提供三种不同层级的抉择,即 O1/O2/O3,随着层级的递增,其减速比例减少,这种模式下,用户无需理解算法细节,仅须要在调用 Model 的训练入口时,关上减速开关和抉择减速层级即可,应用办法如下图所示。

繁难模式应用示意

四 集群调试调优反对大规模分布式训练

大模型是以后深度学习畛域钻研的热点之一。模型的参数量和训练数据集的大小均以指数级的规模快速增长。以 MindSpore 和鹏城实验室独特公布的鹏程·盘古模型为例,模型的参数量达到了 2000 亿,应用 2K 集群历时数月进行训练。在这样的背景下,模型性能调优对缩小训练工夫和老本有着至关重要的意义。

MindSpore 1.5 版本公布集群调试调优工具链,针对 K 级集群性能数据可能做到一键收集,提供集群慢节点 / 慢网络、计算通信比、内存热力求等多维性能剖析与可视化能力,联合智能集群调优倡议,达成小时级性能瓶颈定位。

  1. 集群迭代 & 通信性能剖析

以集群视角汇总了多项性能要害数据,并对多卡数据提供了排序、剖析性能,用户可疾速的从 K 级集群中找到慢节点、慢链路等,并从集群页面跳转到对应的单卡页面,进一步定界节点慢的起因,找到最小性能瓶颈点。

  1. 计算通信比剖析

集群并行训练过程中,通信是影响性能的重要因素,计算通信比指标能够帮忙开发者剖析网络切分策略是否正当以及是否有优化空间。如下图所示,非 overlap 87ms 是开发者可关注的性能晋升空间。

查看文档:https://www.mindspore.cn/mind…

五 MindSpore Lite 新增对外开放机制,反对 Hi3516/3549 芯片以及更多异构硬件的对接

此版本中,MindSpore Lite 新增了两个对外开放的接入机制:反对南向自定义算子接入,反对第三方 AI 框架通过 Delegate 机制接入。

南向自定义算子的接入性能,反对用户自定义图优化能力,实现在离线阶段生成特定硬件反对的模型文件,同时反对特有硬件算子接入 MindSpore Lite Runtime,实现 MindSpore Lite 在第三方硬件上高性能推理,以后咱们曾经接入 Hi3516/3559 芯片,使机器视觉 AI 利用开发更加便捷。

第三方专用 AI 芯片南向接入 MindSpore Lite

查看文档:https://www.mindspore.cn/lite…

Delegate 机制,反对有构图能力的第三方 AI 框架接入 MindSpore Lite,充分利用内部 AI 框架提供的特有硬件算子库或者更优越的推理性能。采纳 Delegate 实现了 Lite+ 其余 AI 框架的异构执行,放弃了离线模型一致性,以后咱们曾经通过 Delegate 机制反对了 Kirin NPU 以及更多异构硬件。

通过 Delegate 接入 MindSpore Lite

查看文档:https://www.mindspore.cn/lite…

六 灵便表白:欠缺控制流,反对多种管制语句混合编写,反对循环主动微分

在此版本中,在控制流语法的应用方面咱们提供以下反对与优化:

1)进一步强化了对于动态图控制流的反对,通过应用虚拟机机制执行控制流算子,解决了控制流非尾递归场景的图递归执行问题,实现了对循环求反向的反对。同时,咱们扩充了控制流的语法反对范畴,目前控制流已能够反对 if、while、for、break、continue 表白。一个 if 语句基于虚拟机机制的控制流执行流程如图所示:

2)优化动态图编译过程,缩小了控制流网络的子图数量,大幅晋升局部简单控制流网络场景下的编译性能和执行性能。

3)反对控制流 MindIR 导入导出性能,能够在云侧训练控制流网络导出 MindIR,在端侧导入 MindIR 进行推理。

查看文档:https://www.mindspore.cn/docs…

参考文献:

[1] Zeng, Wei, et al. “PanGu-$\alpha $: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation.” arXiv preprint arXiv:2104.12369 (2021).

MindSpore 新版原本啦,欢送各位前来体验,分享技术干货还可取得精美礼品,还不快来试试嘛?

流动工夫:
9 月 26 日——10 月 8 日

流动详情:
https://bbs.huaweicloud.com/f…

奖品预览:

正文完
 0