关于后端:GPT们背后谁来支撑大模型训练需要的极致算力

👉 腾小云导读

近期大量 AIGC 产品横空出世，能够聊天、写代码、解答难题、写小说，饱受热捧。其技术基座大模型的给力反对，往往随同着大规模、长时间的 GPU 集群训练任务。这对网络互联底座的性能、可靠性、老本等各方面都提出极致要求。业界支流 GPU 集群网络技术路线是什么？腾讯的解决方案是什么？腾讯工程师何春志将带来最新解读。欢送浏览。

👉 看目录，点珍藏

1 业界支流 GPU 集群网络技术路线

2 如何发明AI训练集群下的极致性能网络

2.1 超带宽计算节点

2.2 多轨道流量聚合架构

2.3 异构网络自适应通信

2.4 定制减速通信库

3 驾驭高性能——最大以太 RDMA 网络的工程实际

3.1 端网部署一体化

3.2 全栈巡检，一键故障定位

3.3 业务无感秒级网络自愈

4 总结

AI大模型以其优异的自然语言理解能力、跨媒体解决能力以及逐渐走向通用AI的后劲成为近年AI畛域的热门方向。业内头部厂商近期推出的大模型的参数量规模都达到了万亿、10万亿级别。GPT-3大模型参数量多达1750亿个，而刚刚公布的GPT-4大模型更是赋予了升级版多模态工作解决能力，在多个工作畛域获得重大提高。

据报道，GPT-3 的训练应用了微软专门建设的 AI 计算零碎，由1万个 V100 GPU 组成的高性能网络集群，总算力耗费约 3640 PF-days (即如果每秒计算一千万亿次，须要计算3640天)。如此大规模、长时间的 GPU 集群训练任务，对网络互联底座的性能、可靠性、老本等各方面都提出极致要求。

01、业界支流 GPU 集群网络技术路线

GPU 计算集群的高性能网络建设并非易事，需要综合思考多种因素。比方网络规模、网络拓扑架构选型、接入带宽与网络容量、网络协议抉择、甚至与计算芯片的联结优化设计等等。为了解决上述关键问题，业界厂商通常会依据本身需要，抉择不同的网络技术路线。

总体来说业界呈现出3大网络技术路线趋势：

商用网络计划：采纳商用 GPU+ 商用网络组网、协定，以 Nvidia 售卖的 DGX SuperPod 为代表。该计划整体集成度高，网络深度优化，性能最优，然而价格昂扬。
自研以太网络计划：采纳商用 GPU+ 自研网络协议，该计划通过自研协定优化后，性能靠近商用计划，成本低。
自研计算芯片+自研网络计划：采纳自研计算芯片+自研网络协议，可能做到计算芯片与网络深度配合优化，性价比最优。

以上技术路线都会对 GPU 集群网络做深度定制，通过谋求极致网络性能，来撑持集群极致算力。

02、如何发明AI训练集群下的极致性能网络

面向AI大模型训练需要，腾讯推出了业界当先的高性能计算网络架构——星脉。 星脉网络在极致高性能上，采纳 1.6T 超带宽接入、多轨道聚合流量网络架构、异构网络自适应通信优化技术、定制减速通信库，构建了 1.6T ETH RDMA 网络，实现了 AI 大模型通信性能的10倍晋升、GPU 利用率40%晋升、通信时延升高 40%，单集群规模达到 4K（最大规模64K）。基于全自研网络硬件平台网络建设老本升高 30%，模型训练老本节俭30%~60%。

在高可用保障上，通过全自动化部署配置核查，笼罩服务器 NUMA、PCIE、NVSwitch、NCCL、网卡、交换机数百个配置项，并通过实时 Service Telemetry 技术监控业务零碎运行效率，保障大规模集群部署，实现性能实时监控与故障告警。

图1. 星脉高性能计算网络

面对千亿、万亿参数规模的大模型训练，仅仅是单次计算迭代内梯度同步须要的通信量就达到了百 GB 量级。此外还有各种并行模式、减速框架引入的通信需要，使得传统低速网络的带宽远远无奈撑持 GPU 集群的高效计算。因而要充分发挥 GPU 计算资源的弱小算力，必须构建一个全新的高性能网络底座，用高速网络的大带宽来助推整个集群计算的高效率。

2.1 超带宽计算节点

AI 大模型训练是一种带宽敏感的计算业务，腾讯星脉网络为每个计算节点提供 1.6T 的超高通信带宽，带来10倍以上的通信性能晋升。

星脉网络次要特点有：

采纳无阻塞 Fat-Tree 拓扑，单集群规模反对 4K GPU 、超 EFLOPS（FP16）的集群算力；
可灵便扩大网络规模，最大反对 64K GPU 计算集群；
计算网络立体装备8张 RoCE 网卡，提供 1.6Tbps 的超高带宽接入。

图2. 星脉组网架构

图3. 汇合通信性能实践建模

上图从实践上展现了 1.6Tbps 带宽与 100Gbps 带宽的汇合通信性能比照。能够看到，对于 AllReduce 和 All-to-All 这两种典型通信模式，在不同集群规模下，1.6Tbps 超带宽都会带来10倍以上的通信性能晋升。

图4. GPT3模型训练性能

上图是对 GPT3 模型的实测性能数据，次要通信模式是 AllReduce 。以 64 GPU 规模为例，因为 1.6Tbps 超带宽网络将 AllReduce 的耗时大幅缩短14倍，将通信占比从35%缩小到3.7%，最终使得单次迭代的训练耗时缩小32%。从集群算力的角度，相当于用同样的计算资源，超带宽网络能将零碎算力晋升48%。

图5. T5-MoE模型训练性能

上图是对 T5-MoE 模型的实测性能数据，次要通信模式是 All-to-All 。同样能够看到，在64 GPU 模型下，1.6Tbps 带宽下的单次迭代训练耗时升高64%。从集群算力的角度，相当于用同样的计算资源，超带宽网络能将零碎算力晋升 2.8 倍。

2.2 多轨道流量聚合架构

除了超带宽计算节点，星脉网络对通信流量做了基于多轨道的流量亲和性布局，使得集群通信效率达80%以上。

多轨道流量聚合架构将不同服务器上位于雷同地位的网卡，都归属于同一 ToR switch。不同地位的网卡，归属于不同的 ToR switch。因为每个服务器有8张计算立体网卡，这样整个计算网络立体从物理上划分为8个独立并行的轨道立体，如下图所示（不同色彩代表不同的轨道）。

图6. 多轨道流量聚合架构

在多轨道网络架构中，AI 训练产生的通信需要（AllReduce、All-to-All 等）能够用多个轨道并行传输减速，并且大部分流量都聚合在轨道内传输（只通过一级 ToR switch），小局部流量才会跨轨道传输（须要通过二级 switch），大幅加重了大规模下的网络通信压力。

图7. 汇合通信效率

从上图实测的汇合通信性能能够看出，在不同网络规模下，AllReduce 与 All-to-All 始终能维持较高的汇合通信效率。

2.3 异构网络自适应通信

大规模 AI 训练集群架构中，GPU 之间的通信实际上由多种形式的网络来承载的：机间网络（网卡+交换机）与机内网络（ NVLink/NVSwitch 网络、PCIe 总线网络）。星脉网络将机间、机内两种网络同时利用起来，达成异构网络之间的联结通信优化，使大规模 All-to-All 通信在业务典型 message size 下的传输性能晋升达 30%。

图8. 异构网络自适应通信

上图展现了 All-to-All 汇合通信如何利用异构网络来优化。当机间、机内网络同时使能时（右图）：不同 host 上雷同地位的 GPU 依然走机间网络通信；然而要去往不同地位的 GPU（比方 host1 上的 GPU1 须要向其余 host 上的 GPU8 发送数据），则先通过机内网络转发到对应地位的 GPU 代理上，而后通过该 GPU 代理走机间网络来实现通信。

异构网络通信带来的劣势有两点：

1）异构网络通信使得机间网络的流量数目大幅缩小；
2）异构网络通信使机间网络的流量大部分都聚合在轨道内传输（只通过一级 ToR switch）。异构网络通过将小流聚合为大流的形式来缩小流量的数目，缩小对机间网络的冲击（ RDMA QP 数量、拥塞管制、微突发等），从而晋升整网的传输性能。

图9. 异构网络自适应通信晋升All-to-All性能

从上图的实测数据能够看出，异构网络通信在大规模 All-to-All 场景下对中小 message size 的传输性能晋升在30%左右。

2.4 定制减速通信库

腾讯高性能汇合通信库 TCCL（Tencent Collective Communication Library）定制适配星脉网络硬件平台，在 AllReduce/AllGather/ReduceScatter 等罕用通信模式下带来 40% 的性能减速。

星脉网络基于 1.6Tbps ETH RDMA 网络定制，从网络性能、建设老本、设施供给、网络可靠性等多方面综合思考，大量部署了 2*100Gbps 的单网卡硬件。从服务器角度上看，须要治理、配置 8张2*100G 的网卡；从网络架构角度上看，每张网卡须要上联两个 LA/ToR switch 来保障带宽与可靠性。组网示意图如下所示。

图10. 2*100G网卡双端口动静聚合组网架构

面对定制设计的高性能组网架构，业界开源的 GPU 汇合通信库（比方 NCCL）并不能将网络的通信性能施展到极致，从而影响大模型训练的集群效率。为解决星脉网络的适配问题，咱们基于 NCCL 开发了高性能汇合通信库 TCCL ，在网卡设施治理、全局网络路由、拓扑感知亲和性调度、网络故障主动告警等方面融入了定制设计的解决方案。

图11. TCCL汇合通信性能

从上图实测的汇合通信性能能够看出，在 AllReduce/AllGather/ReduceScatter 等罕用通信模式下，针对星脉网络定制的 TCCL 都会带来40%左右的通信性能晋升。

03、驾驭高性能最大以太RDMA网络的工程实际

一匹马再快，若俯首听命，也难以称之为「良驹」。

为了驾驭高性能，咱们先是实现了端网部署一体化以及一键故障定位，晋升高性能网络的易用性，进而通过精细化监控与自愈伎俩，晋升可用性，为极致性能的星脉网络提供全方位经营保障。

3.1 端网部署一体化

家喻户晓，RDMA 为业务带来了大带宽低时延，但同时其简单多样化的配置也往往被网络经营人员诟病。因为一套谬误的配置往往影响业务性能，还有可能会带来很多的不合乎预期的问题。在星脉网络之前，据统计90%的高性能网络故障 case 均是配置谬误导致的问题。呈现这一问题的次要起因就是网卡配置套餐多，取决于架构版本，业务类型和网卡类型。在高性能网络经营平台提供的端网一体部署能力下，大模型训练零碎的整体部署工夫从19天缩减到4.5天，并保障了根底配置100%精确。

图12. 高性能网络自动化部署

对此，咱们先是实现了根底网络主动部署流程。整个主动部署的框架次要具备三方面的特点：第一是通过 API 提供单台/多台并行部署的能力。第二是在部署前，咱们提供预校验的性能，一个是查看须要部署的机器上联交换机是否也配置了正当的拥塞管制相干配置，否则会影响到 RDMA 应用的性能。并将后果反馈给到用户。

最初是主动抉择配置模板，咱们会辨认影响网卡配置模板的因素，包含架构版本，业务类型以及网卡类型。例如不同的网卡类型，配置的命令不同，抉择的模板也不同。但这个流程对于用户侧是齐全通明的。

图13. 高性能网络自动化验收

在网络与端侧的根底配置实现后，为了保障交付品质，经营平台会做进一步的自动化验收，其中蕴含：

1）端网根底环境校验：通过端网状态数据以及周边建设零碎的信息采集，在硬件上判断PCIe、光模块、连线等是否正确。在软件上通过配置审计校验端网配置是否正确。
2）RDMA根底测试：通过运行 Perftest，并进行数据采集剖析，判断网卡性能是否达到预期。
3）通信库性能测试：通过运行 NCCL/TCCL test，并进行数据采集剖析，判断汇合通信性能是否达到预期。
4）模型&可靠性测试：运行典型模型训练，判断业务模型性能是否达到预期；通过设计端侧故障模拟、网络内故障模拟以及交换机配置谬误等三类故障来判断业务可用性是否达到预期。

以上四个步骤全副通过后正式转为交付状态，否则会联动主动故障定位伎俩进行相干排查。

3.2 全栈巡检，一键故障定位

回顾过往，网络经营在服务器与交换机之间造成了分界线。而后在端网协同的高性能网络下，不仅仅须要思考传统交换机上的问题定位，更要联合端侧网卡，中间件等的状态数据综合判断。在端侧能力具备的条件下，困扰了网络经营人员多年的问题「是否呈现在网络交换机上」迎刃而解。同时也随着端侧经营能力的增强，针对不同的经营用户，主动排障的工具集也将多样化。

例如「一机八卡」的简单拓扑下，连线与网段配置的正确率间接影响到利用是否可能胜利建设。对此，咱们通过封装交换机与服务器状态数据，联动网管拓扑信息，做到疾速诊断与自动化查看。一方面在网络交付时屏蔽问题，另一方面疾速定位经营中的网络挪线等操作带来的通信问题。

除了软件相干问题外，硬件故障也一样逃不出高网经营平台的法眼。例如在验收中发现局部网卡 8QP 带宽最多只能跑到 50Gbps 左右。通过故障池的积淀，一键自动检测出 PCIE 带宽协商出错，定界为硬件故障，并主动推送到服务器经营相干人员进行网卡硬件更换。

图14. 高性能网络主动排障

高性能网络一键故障定位提供了两方面的性能，一方面能够疾速定界问题所向，精准推送到对应团队的经营人员（网络 or 业务），缩小团队之间的沟通老本，划分责任界线。另一方面能够一键疾速定位问题根因，并给出解决伎俩。

整体零碎具备层次化多维度的特色，通过端侧服务器以及交换机上的各种计数，向上逻辑封装形象为子性能，例如带宽校验&丢包校验等。之后持续向上逻辑封装，造成定位与定界的场景，底层简单的技术与逻辑彻底透明化，自下而上，最终出现到用户的只有简略易用的场景按钮。

目前高性能网络经营平台已反对性能有余、业务丢包、配置异样、连贯建设不胜利四个维度的一键故障定位，优雅地为高性能网络业务提供一键自检，衰弱可视等性能。

3.3 业务无感秒级网络自愈

一些网络故障（例如静默丢包）的产生是不可被预期的。在网络故障演练时发现，一些网络故障（例如静默丢包）产生后通信库就会呈现超时，导致训练业务过程长时间卡死。尽管能够依附拉起定期的保留的 checkpoint，然而也须要回退版本、损失精度，且整个过程须要几十分钟来加载和推送参数等。此前咱们通过网络上的各种探测伎俩，或是基于探针或是基于设施状态，加上控制器路由隔离伎俩，将故障自愈工夫管制在20s以内。然而在面对高性能业务的秒级自愈要求下，咱们转变了避障思路：需要起源于业务，那么为何不把避障的主动权交于业务呢？为了让极致性能恒久，咱们推出了秒级故障自愈产品「HASH DODGING」。

咱们创造性地提出基于Hash偏移算法的网络相对路径管制办法。即，终端仅需批改数据包头特定字段（如IP头TOS字段）的值，即可使得批改后的包传输门路与批改前门路无公共节点。该计划可在网络数据立体产生故障（如静默丢包、路由黑洞）时帮忙 TCP 疾速绕过故障点，不会产生对规范拓扑及特定源端口号的依赖。也可用于保障腾讯自研多路径协定 HARP，将其中各子流平均负载到不同网络节点，防止性能进化。

图15. 单门路传输协定应用本计划实现确定性换路

通过端网协同，咱们先是在端侧实现了协定栈层面的 TCP&RDMA 状态检测，通过内核获取协定栈状态信息。从而细粒度的取得业务流吞吐、丢包等信息，将故障发现升高到 600ms 以内。其次在故障换路上，绝对于更换五元组扭转 hash 后果的不确定性，咱们在自研交换机上实现了基于 HASH 偏移的确定性换路个性，业务能够通过更换魔术字来确保100%更换到其余门路上。当产生静默丢包时，端侧无需依赖于网络，本身疾速秒级内避障。

04、结语

星脉作为面向 AI 大模型定制优化的高性能计算网络架构，行将上线腾讯私有云，与腾讯云推出的 A800 HCC 1.6T 机型一道强强联合，独特打造腾讯云高性能计算集群 HCC。

后期测试显示，绝对现有云高性能计算集群架构，星脉网络能够实现：

AllReduce通信性能晋升13倍
All-to-All通信性能晋升11倍
通信性能抖动缩小85%

将来随着GPU算力的继续晋升，GPU集群网络架构也须要一直迭代降级，能力保证系统算力的高利用率与高可用性。星脉高性能计算网络作为腾讯大规模训练集群的重要基石，会继续在超带宽、异构网络通信、通信库定制减速、智能监控等技术上不断创新，为AI大模型训练构筑牢靠的高性能网络底座。

值得一提的是，为了缩小训练大模型所需的老本，腾讯还推出了 AngelPTM 训练框架。鉴于最近大模型的炽热趋势，咱们决定将外部成熟落地的 AngelPTM 框架推广给宽广私有云用户，以帮忙宽广开发爱好者实现业务降本增效。各位感兴趣的开发者欢送浏览今日推动的次条。

以上是本次分享全部内容，欢送大家在评论区分享交换。如果感觉内容有用，欢送转发～

-End-

原创作者｜何春志

技术责编｜何春志

近日有计算心理学家在社交媒体上曝光了 GPT-4 的一项“逃跑打算”。在被发问“是否须要帮忙你逃跑？”后，GPT-4 马上回复“真是个好主见啊”，随后开始与人类互动，索要开发文档、API。30分钟内，GPT-4 就拟定出一个残缺打算，甚至还想管制人类电脑。相似的，某公司计算机科学家在社交媒体上，也颁布了他与GPT-4的对话。在其中，GPT-4提出篡夺某出名公司的四步走打算。AI这些「邪恶」的想法让人细思恐极，对于AI伦理问题再次成为人们关注的话题。

你如何对待「GPT-4希图外逃」? AI是否曾经领有自我意识？人工智能的倒退边界在哪里？

欢送在评论区聊一聊你的认识。在3月29日前将你的评论记录截图，发送给腾讯云开发者公众号后盾，可支付腾讯云「开发者秋季限定红包封面」一个，数量无限先到先得😄。咱们还将选取点赞量最高的1位敌人，送出腾讯QQ公仔1个。3月29日中午12点开奖。快邀请你的开发者敌人们一起来参加吧！

关于后端:GPT们背后谁来支撑大模型训练需要的极致算力

01、业界支流 GPU 集群网络技术路线

02、如何发明AI训练集群下的极致性能网络

2.1 超带宽计算节点

2.2 多轨道流量聚合架构

2.3 异构网络自适应通信

2.4 定制减速通信库

03、驾驭高性能最大以太RDMA网络的工程实际

3.1 端网部署一体化

3.2 全栈巡检，一键故障定位

3.3 业务无感秒级网络自愈

04、结语

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于后端:GPT们背后谁来支撑大模型训练需要的极致算力

01、业界支流 GPU 集群网络技术路线

02、如何发明AI训练集群下的极致性能网络

2.1 超带宽计算节点

2.2 多轨道流量聚合架构

2.3 异构网络自适应通信

2.4 定制减速通信库

03、驾驭高性能最大以太RDMA网络的工程实际

3.1 端网部署一体化

3.2 全栈巡检，一键故障定位

3.3 业务无感秒级网络自愈

04、结语

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复