关于microsoft:为了高性能超大规模的模型训练这个组合出道了

71次阅读

共计 867 个字符,预计需要花费 3 分钟才能阅读完成。

近年来,在大量数据上训练的基于 transformer 的大规模深度学习模型在多项认知工作中获得了很好的成绩,并且被应用到一些新产品和性能背地,进一步加强了人类的能力。在过来五年中,这些模型的规模增长了几个数量级。从最后的 transformer 模型的几百万个参数始终到最新的 5300 亿个参数的 Megatron-Turing (MT-NLG 530B) 模型(如图所示),客户对于前所未有的大规模训练和微调大型模型的需要越来越强烈。

大模型和硬件能力全景图  

Azure 机器学习(AzureML)带来了大量由 InfiniBand 互连提供反对的最新 GPU,以应答大规模 AI 训练。咱们曾经在 Azure 上训练了 Megatron/Turing 和 GPT- 3 这些模型。以前,为了训练这些模型,用户须要设置和保护一个简单的分布式训练基础设施,通常波及几个手动的步骤,容易出错,从而导致在可用性和性能方面的体验不佳。

明天,咱们很骄傲地发表在咱们的软件堆栈中获得冲破——应用 DeepSpeed 和 1024 A100 来扩大 2T 参数模型的训练,并在 1K+ GPU 规模上提供精简的用户体验。咱们将通过 AzureML(包含充沛优化的 PyTorch 环境)为您带来这些软件翻新,它为大规模训练提供了杰出的性能和易于应用的界面。

如下图所示,微软正在采纳全栈优化办法,其中硬件、操作系统、VM image、Docker image(含优化后的 PyTorch、DeepSpeed、ONNX 运行时和其余 Python 包)、面向用户的 Azure ML APIs 都曾经过优化、集成和测试,具备杰出的性能和可扩展性。

微软针对 Azure 上可扩大分布式训练的全栈优化

这个优化的堆栈使咱们可能应用 DeepSpeed on Azure 无效地扩大大型模型的训练。与其余云场商公布的数据相比,咱们反对 2 倍大的模型大小(2 万亿 vs. 1 万亿参数),扩大到 2 倍的 GPU(1024 vs. 512),以及高达 1.8 倍的计算吞吐量 /GPU(150 TFLOPs vs. 81 TFLOPs)。

长按辨认二维码
关注微软开发者 MSDN

点击返回原博客~

正文完
 0