共计 4027 个字符,预计需要花费 11 分钟才能阅读完成。
训练大型深度学习模型须要极大的内存,能力贮存中间层的激活函数输入和权重等。一些模型只能在单个 GPU 上训练,训练时须将批大小(batch size)设置得极小;还有一些模型则太大,单个 GPU 放不下。这些问题会导致在某些状况下模型训练效率极低,甚至无奈训练。训练大型深度学习模型次要有两大办法:数据并行、模型并行。
当单个 GPU 的内存能够残缺包容整个模型时,这是可实现数据并行的最简略的状况。但此时,模型训练可用的 batch size 就变得较小,减少了训练难度。解决办法是将不同的模型实例放在不同的 GPU 上运行,每个模型实例计算不同的数据批次。
每个模型实例都有雷同的参数初始化,但在前向流传中,每个模型实例会收到不同的数据批次。每个模型实例产生的梯度会被集结起来,用以计算梯度更新,而后进行模型参数更新,更新后的参数将被发送到每个模型示例中。
当单个 GPU 无奈包容整个模型时,模型并行就十分必要。模型并行要求将模型切分到多个 GPU 上进行训练。模型并行是训练大模型的无效方法,但它的毛病是算力的利用率太低。因为同一时间只有一个 GPU 正在运行,其余 GPU 都将闲置。
目前,数据并行和模型并行都获得了肯定的提高,能够晋升训练和推理时的效率。以下是业内风行的九大深度学习库。
1. Megatron-LM
Megatron 是 NVIDIA 利用深度学习钻研团队研发的大规模 Transformer 语言模型训练框架,反对模型并行(张量并行、序列并行与流水并行)与多节点预训练(multi-node pre-training),目前已反对 BERT、GPT 和 T5 模型。
链接:https://github.com/NVIDIA/Meg…
2. DeepSpeed
DeepSpeed 是 Microsoft 推出的深度学习库,用于训练 Megatron-Turing NLG 530B 和 BLOOM 等大型模型,在训练、推理和压缩三方面都有所翻新。
DeepSpeed 具备如下长处:
- 可进行十亿乃至万亿级参数的稠密 / 密集模型的训练 / 推理
- 可实现超高零碎吞吐量,可高效扩大至数千个 GPU
- 可在资源无限的 GPU 零碎上进行训练 / 推理
- 可实现前所未有的低延时与高推理吞吐量
- 可用低成本实现压缩,从而大幅升高推理提早并缩减模型大小
链接:https://github.com/microsoft/…
3. FairScale
FairScale 是由 Facebook Research 开发的 PyTorch 扩大库,具备高性能,可用于大型训练。FairScale 的愿景如下:
- 易用性,开发简略易懂的 FairScale API,使用户不便上手。
- 模块化,实现模块化,使用户可将多个 FairScale API 无缝退出其训练循环。
- 性能,实现 FairScale API 的高可扩展性和高效率。
FairScale 反对齐全分片数据并行(FullyShardedDataParallel,FSDP),FSDP 是扩大大型神经网络训练的举荐办法。
链接:https://github.com/facebookre…
4. ParallelFormers
Parallelformers 是基于 Megatron-LM 的开源库。它与 HuggingFace 库高度交融,只用一行代码即可将 HuggingFace 库中的模型并行化。目前,Parallelformers 只反对推理。
链接:https://github.com/tunib-ai/p…
5. ColossalAI
Colossal-AI 提供用于分布式 / 并行训练的一套并行组件。Colossal-AI 反对下列并行策略与优化措施:数据并行、流水并行、1D, 2D, 2.5D, 3D 张量并行、序列并行、零冗余优化器 (ZeRO)、异构内存治理(Heterogeneous Memory Management),用于推理零碎 Energon-AI。
链接:https://github.com/hpcaitech/…
6. Alpa
Alpa 是一个用于训练和服务大型神经网络的零碎。其特点如下:
- 主动并行化:Alpa 可主动将用户的单设施代码并行化,用于分布式集群,实现数据并行、算子并行和流水并行。
- 杰出的性能:Alpa 在应用分布式集群训练含十亿级参数的大模型时可实现线性扩大。
- 亲密整合机器学习生态:Alpa 由 Jax、XLA 和 Ray 等高性能且生产就绪的开源库提供反对。
链接:https://github.com/alpa-proje…
7. Hivemind
Hivemind 库能够让用户通过网络应用 PyTorch 进行去中心化深度学习训练。它起初的设计目标是让来自各地的高校、企业和自发参加人员可能通过数百台不同电脑训练同一大型模型。
Hivemind 的次要特点包含:
- 可实现无主节点的分布式训练:其底层的分布式哈希表可在去中心化网络中连贯所有计算机。
- 反向流传容错:即便某些节点无反馈或反应时间较长,也不会导致前向流传和反向流传失败。
- 去中心化参数平均化: 来自多个 worker 的参数更新能够进行迭代累计,而无须在整个网络中同步。
- 可训练任意大小的神经网络:局部神经网络层可通过去中心化混合专家系统(Decentralized Mixture-of-Experts)散布在多台计算机中。
链接:https://github.com/learning-a…
8. OneFlow
OneFlow 是一个高效、易用、可扩大的深度学习框架,可实现以下性能:
- 兼容 PyTorch 的 API 对模型进行编程
- 使用全局视角(Global View)API 将模型扩大至 n 维并行执行或分布式执行
- 用动态图编译器(Static Graph Compiler)进行模型减速 / 部署
链接:https://github.com/Oneflow-In…
论文:https://arxiv.org/abs/2110.15032
9. Mesh-Tensorflow
Mesh TensorFlow (mtf) 是一种专用于分布式深度学习的语言,可指定多种分布式张量计算。其名称中的 Mesh 意为“网”,示意多个处理器和计算设施相互连贯造成的网络。
链接:https://github.com/tensorflow…
(以上内容经受权后编译公布,原文:https://medium.com/@mlbloggin…)
10. OneFlow 的大模型分片保留和加载策略
在模型比拟小时(如 100G 以下),还有可能采纳单机存储。当模型参数量比拟大时,要求的样本数也更大,训练后做 dump 进去的模型也会很大,单机必定放不下。本文将介绍 OneFlow 的大模型分片保留、加载策略以及应用办法。
链接:https://mp.weixin.qq.com/s/2Z…
11. 强化学习发现矩阵乘法算法,DeepMind 再登 Nature 封面推出 AlphaTensor
在最新一期 Nature 封面论文《Discovering faster matrix multiplication algorithms with reinforcement learning》中,DeepMind 提出了 AlphaTensor,并示意它是第一个可用于为矩阵乘法等根本工作发现新鲜、高效且可证实正确的算法的人工智能零碎。简略来说,应用 AlphaTensor 可能发现新算法。这项钻研揭示了 50 年来在数学畛域一个悬而未决的问题,即找到两个矩阵相乘最快办法。
AlphaTensor 建设在 AlphaZero 的根底上,而 AlphaZero 是一种在国际象棋、围棋和将棋等棋盘游戏中能够战胜人类的智能体。这项工作展现了 AlphaZero 从用于游戏到首次用于解决未解决的数学问题的一次转变。
链接:https://mp.weixin.qq.com/s/kC…
12. 谷歌多模态大模型 PaLI:采纳参数量为 4B 的 ViT-e,成果超过 BEiT-3
语言和视觉工作的建模中,更大的神经网络模型能取得更好的后果,简直曾经是共识。在语言方面,T5、GPT-3、Megatron-Turing、GLAM、Chinchilla 和 PaLM 等模型显示出了在大文本数据上训练大型 Transformer 的显著劣势。视觉方面,CNN、视觉 Transformer 和其余模型都从大模型中获得了很好的后果。language-and-vision 建模也是相似的状况,如 SimVLM、Florence、CoCa、GIT、BEiT 和 Flamingo。来自谷歌的研究者通过一个名为 PaLI(Pathways Language and Image)的模型来连续这一方向的钻研。
链接:https://mp.weixin.qq.com/s/na…
13. 谷歌全面转向文字→视频生成,两大利器同时挑战分辨率和长度
在文本转图像上卷了大半年之后,Meta、谷歌等科技巨头又将眼光投向了一个新的战场:文本转视频。Meta 颁布了一个可能生成高质量短视频的工具——Make-A-Video,利用这款工具生成的视频十分具备想象力。当然,谷歌也不甘示弱。该公司 CEO Sundar Pichai 亲自安利了他们在这一畛域的最新成绩:两款文本转视频工具——Imagen Video 与 Phenaki。前者主打视频品质,后者次要挑战视频长度,能够说各有千秋。
链接:https://mp.weixin.qq.com/s/uf…
14. 层出不穷的机器学习框架到底在“卷”什么?
10 月 19 日 19:00,小红书技术 REDtech 邀请到了国内的深度学习框架初创公司 OneFlow 的创始人袁进辉,与小红书智能散发部负责人瑞格带来新一期【REDtech 来了】技术直播。他们将围绕机器学习框架在工业界理论利用的挑战与前景开展精彩分享。
链接:https://mp.weixin.qq.com/s/mt…
欢送下载体验 OneFlow v0.8.0 最新版本:
https://link.segmentfault.com…