关于机器学习:弹性训练AI模型华为云黑科技解决开发算力缺陷

摘要：AI进入产业的门槛变高，开发者想要做出优良的AI模型就不得不在算力和老本之间折中，怎么办？

为帮忙企业在AI落地过程中进一步实现降本增效，华为云推出AI黑科技——弹性训练。

往年，AI界最被热议的当属OpenAI最新公布的GPT-3模型，作为迄今为止公布的最大自然语言解决（NLP）转换器，它的模型参数有1750亿个，应用了45TB的数据，算力要求为3640pfs-day，训练费用高达1200万美金。

如果AI开发者想要应用大数据来训练模型，就须要超强的算力，同时不得不领取昂扬的训练费用。这就导致AI进入产业的门槛变高，开发者想要做出优良的AI模型就不得不在算力和老本之间折中。

一方面，在估算投入无限的状况下，AI开发者只能应用较弱的算力，从而造成AI服务开发的滞后。另外一方面，对于云厂商来说，因为用户应用工夫和规模的灵活性，常常会存在闲暇的计算资源没有被应用，造成节约。华为云AI黑科技弹性训练动静缩减和扩大节点，很好地解决了AI开发者算力有余和云厂商算力闲暇的矛盾。

灵便调配算力资源，弹性训练为AI开发降本增效

华为云弹性训练计划实时监控资源池的算力状况，如果有闲暇的计算资源，会把该资源分配给正在训练中的弹性作业，进步该训练作业的算力，从而使该训练作业疾速收敛。在有新工作提交时，华为云弹性训练计划又会依据资源池闲暇资源和弹性作业的应用状况，把资源回收后给新起的工作，保障新的训练的疾速效应。

弹性训练流程

弹性训练能够依据模型训练速度的要求，自适应匹配最佳资源数。具体在产品上，它提供两种模式。

一是Turbo模式，能够充分利用闲暇资源减速已有训练作业，在大多数典型场景下减速效率大于80%，训练速度晋升10倍，并且不会影响模型收敛精度。

二是Economic模式，能够通过最大化资源利用率，给开发者提供极致的性价比，在大多数典型场景下能够晋升性价比30%以上。

工程和算法多个维度优化，升高模型训练难度

华为云弹性训练计划须要解决多个简单的分布式训练问题：如何实现动静屡次弹性后训练的收敛过程和收敛后果和一般非弹性训练等价统一、如何保障弹性过程中优雅切换、如何解决混部等场景中straggler连累零碎性能、如何使用户缩小代码批改、如何抉择适合的通信框架从而缩小梯度汇聚工夫。华为云弹性训练计划从工程和算法多个维度进行优化，解决了上述问题，实现了训练的准确率不升高、减速比现实。

具体来说，华为云弹性训练计划具备易用、高效、优雅的训练框架和等价的训练过程，普惠的弱小算力、高利用率的云资源四大劣势。

易用、高效、优雅的训练框架

华为云的弹性训练基于易用高效的训练框架，用户只须要依据要求，简略的批改代码，就能够满足弹性训练的要求。

弹性训练框架反对NCCL通信，反对all_reduce或点对点的组网模式，能够高效的进行梯度聚合，因而有很好的减速性能。

同时，它也反对多GPU/NPU性能监控，反对基于每个GPU/NPU的性能进行训练负载动静调整，在混部等多GPU/NPU性能不平衡的场景下，仍然具备很好的性能。

除此之外，弹性训练框架能够保障弹性过程是优雅的。弹性训练过程中波及到节点数的变多和变少。在节点数变多时，它能够保障老节点在新节点切入前失常训练，新节点在筹备好平滑的切入训练，因而不须要老节点长时间期待。在节点数变少时，弹性训练框架能够让开释的节点平滑退出。

等价的训练过程

弹性训练过程节点数是动态变化的，在弹性的动静过程中如何调整训练超参，保障模型的收敛是一个微小的挑战。华为云的弹性训练计划在实践上能够保障，在初始设置正确的训练超参后，节点在弹性过程中变多或变小时，训练的模型的收敛过程和后果是统一的。因而用户在应用训练计划时，不须要因为弹性而引入过于简单的超参调整策略，另外也不须要放心弹性的引入对收敛后果造成影响。等价训练过程让用户能够释怀的应用弹性训练。

普惠的弱小算力

相比传统的间接购买确定的算力计划，AI开发者在投入很少的状况下，能够取得微小的算力。用户提起弹性训练作业后，在训练过程中能够取得华为云中闲暇的运算资源，算力迅速加强，因而在较短的工夫内就能够把训练跑完，从而实现高频的训练迭代、疾速的服务上线变现。弹性计划真正让用户实现了用得起。

高利用率的云资源

传统的资源强化定制计划，导致无奈盘活闲暇资源，不能依据实时资源应用状况，动静调整曾经训练的作业。因而在传统计划中，常常会呈现训练任务算力有余、耗时漫长的同时资源池中大量资源闲置的矛盾场面。

相比之下，华为云弹性训练计划具备极大的灵活性。基于弹性训练计划，华为云实时监控资源池中资源的状况，动静调整弹性训练作业的算力状况，当资源池中有闲暇资源时，就将闲暇资源分配给训练作业，保障资源的充分利用。

在弹性计划确定后，华为云的弹性训练计划主动监控调整，无需人为参加，不便高效。该计划满足了云服务商充分利用算力资源的需要和AI开发者的诉求，实现了双赢。

弹性训练计划利用前景广大

随着数据的爆发式增长，AI进入行业当中越发须要大算力的撑持来解决大数据。将来，弹性训练计划具备广大的利用空间。应用华为云的弹性训练计划在ImageNet（大型可视化数据库）上训练resent50模型。在开始时应用1节点训练模型，在有闲暇资源后，将训练节点调整为16，此时的线性减速比为10。在训练60个epoch后top1 accuracy为76.1%。精度保持一致的状况下，华为云的弹性训练计划使收敛速度快了9倍。

华为云始终秉持着“将简略留给开发者，简单留给华为云”的理念。华为云AI一直迭代翻新，推出黑科技性能，减速AI进入产业，落地理论场景，让千行百业共享AI技术红利。

点击关注，第一工夫理解华为云陈腐技术~

关于机器学习:弹性训练AI模型华为云黑科技解决开发算力缺陷

灵便调配算力资源，弹性训练为AI开发降本增效

工程和算法多个维度优化，升高模型训练难度

易用、高效、优雅的训练框架

等价的训练过程

普惠的弱小算力

高利用率的云资源

弹性训练计划利用前景广大

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于机器学习:弹性训练AI模型华为云黑科技解决开发算力缺陷

灵便调配算力资源，弹性训练为AI开发降本增效

工程和算法多个维度优化，升高模型训练难度

易用、高效、优雅的训练框架

等价的训练过程

普惠的弱小算力

高利用率的云资源

弹性训练计划利用前景广大

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复