关于算法:鹅厂发布的这个算力集群最快4天训练万亿参数大模型

35次阅读

共计 3305 个字符,预计需要花费 9 分钟才能阅读完成。

大模型要胜利,算力是要害。

这是腾讯云面向大模型训练场景,公布的全新一代的 HCC 高性能计算集群性能参数:

“算力性能和上一代相比晋升 3 倍,服务器接入带宽从 1.6T 晋升到 3.2T。”

采纳最新一代腾讯云星星海自研服务器,并搭载 NVIDIA H800 Tensor Core GPU 的这代 HCC 高性能集群,单 GPU 卡反对输入最高 1979 TFlops 的算力。

具体强在哪里?

去年 10 月,腾讯实现首个万亿参数的 AI 大模型—— 混元 NLP 大模型训练 。在等同数据集下,将训练工夫由 50 天缩短到 11 天。如果基于新一代集群,训练工夫将进一步缩短至 4 天。

01、单纯堆卡,算力并不能线性增长

模型热度继续低落,但要训练一个胜利的大模型,算力,算法、数据三者缺一不可。

越强的大模型,越须要更强的算力来实现训练。领有弱小的算力是 AI 大模型胜利的要害。

在单体服务器计算能力无限的状况下,须要将上千台服务器相连,打造大规模、分布式的高性能计算集群。业界标杆的大模型,对训练算力需要广泛十分高,应用成千上万张 GPU 卡。

如此宏大的参数规模,独自一块 GPU 运算卡甚至都实现不了最根本的装载,这也使得咱们要用网络联接成千上万的服务器组建大规模算力集群,为大模型提供所需的算力。

HCC 高性能计算集群就是在这样的需要下诞生,然而,要把这么多的卡“串联“起来,背地须要很强的技术能力。

因为依据木桶效应,单纯堆卡并不能带来算力的线性增长。它须要的是计算、存储、网络以及下层的框架等各个环节全面协调配合,能力输入一个高性能、高带宽、低提早的智算能力平台。

02、最强算力背地是底层自研技术的冲破

为了提供极致的算力输入,腾讯云 HCC 高性能集群,从底层基础设施到下层的训练框架,做了多方面的技术创新。

2.1 计算:业界当先的超高密度,将单点算力性能晋升至更高

服务器的单机性能是集群算力的根底。在非稠密规格状况下,新一代集群单 GPU 卡反对输入最高 495 TFlops(TF32)、989 TFlops(FP16/BF16)、1979 TFlops(FP8)的算力。

针对大模型训练场景,腾讯云星星海服务器采纳 6U 超高密度设计,相较行业可反对的上架密度进步 30%;

利用并行计算理念,通过 CPU 和 GPU 节点的一体化设计,将单点算力性能晋升至更高;

全面降级第四代英特尔至强扩大处理器,服务器 PCIe 带宽、内存带宽最高晋升 100%。

2.2 网络:自研星脉高性能计算网络,将集群算力再晋升 20%

咱们晓得,模型参数量越大,对带宽的需要就越高。成千上万的 GPU 卡协同工作数周甚至更久,GPU 与 GPU 间、服务器与服务器节点之间存在海量的外部数据交互需要。

传统的中小模型训练,往往只须要大量 GPU 服务器参加,跨服务器的通信需要绝对少,能够沿用通用的 100Gbps 带宽。而万亿参数大模型训练,是一种带宽敏感的计算业务,往往是 All-to-All 的通信模式。

在大模型场景下,相比单点 GPU 故障只影响集群算力的千分之几,一条链路的负载不均导致网络梗塞,就会成为木桶短板,影响到数十个甚至更多 GPU 的连通性。

同时,集群训练也会引入额定的通信开销,导致 N 个 GPU 算力达不到单个 GPU 算力的 N 倍。业界开源的 GPU 汇合通信库(比方 NCCL),也不能将网络的通信性能施展到极致。

如果说业界最新代次的 GPU 是跑车,那么咱们须要一条业余赛道,能力让 N 个 GPU 组成的大模型训练集群最大限度地施展后劲。

腾讯自研的星脉高性能计算网络,就是这条业余赛道。这条赛道对 GPU 集群网络做了深度定制。减少了网络节点带宽,为计算节点提供 3.2T ETH RDMA 高性能网络,大幅升高了通信耗时的占比。

这相当于同样的 GPU 卡,用超带宽网络将集群算力提至更高。实测结果显示,搭载同样的 GPU,最新的 3.2T 星脉网络相较 1.6T 网络,让集群整体算力晋升 20%。

这条赛道,对“交通规则”也做了优化。在大规模的训练集群中,GPU 之间的通信实际上由多种形式的网络承载,有机间网络,也有机内网络。

传统上的通信计划,存在大量的机间网络通信,导致集群的通信开销很大。星脉高性能计算网络将两种网络同时利用起来,将小流聚合为大流,通过缩小流量的数目,从而晋升整网的传输性能。实测显示,在大规模 All-to-All 场景下,星脉高性能计算网络能帮忙通信的传输性晋升 30%。

基于多轨道聚合的无阻塞网络架构、被动拥塞管制和定制减速通信库,目前,新一代集群能提供业界当先的集群构建能力,反对单集群高达十万卡级别的组网规模。

腾讯自研高性能汇合通信库 TCCL,基于星脉网络硬件平台深度优化,在全局门路布局、拓扑感知亲和性调度、网络故障实时告警 / 自愈等方面融入了定制设计的解决方案。绝对业界开源汇合通信库,为大模型训练优化 40% 负载性能,打消多个网络起因导致训练中断问题。

在超大集群场景下,依然能放弃优良的通信开销比和吞吐性能,满足大模型训练以及推理业务的横向扩大。

2.3 存储:TB 级吞吐能力和千万级 IOPS,缩小计算节点期待

近 5 年,模型参数量增长十万倍,而 GPU 显存只增长了 4 倍。实践上,云上的池化资源能解决这一问题。

但训练场景下,几千台计算节点会同时读取一批数据集,存储桶还面临着高并发的问题。大模型的数据集次要是 GB 级的大文件,从加载模型到启动实现须要数分钟,如果 GPU 资源闲置,也会拖慢整体训练效率。

如果说大模型算力中的网络,是为 GPU 修了一条业余赛道。那么高性能存储,则是一个“秒换轮胎”的维修站,提前备好数据,尽量减少计算节点的期待,让集群性能进一步迫近最优。

新一代集群,引入了腾讯云最新自研存储架构,具备 TB 级吞吐能力和千万级 IOPS,反对不同场景下对存储的需要。

COS+GooseFS 计划,提供基于对象存储的多层缓存减速,大幅晋升端到端的数据读取性能,为大模型场景提供海量、极速、高性价比的存储计划;将公开数据集、训练数据、模型后果对立存储到对象存储 COS 中,实现数据对立存储和高效流转。GooseFS 按需将热数据缓存到 GPU 内存和本地盘中,为大模型训练提供低延时的本地化拜访能力,减速训练过程、晋升训练效率。

CFS Turbo 高性能并行文件存储,采取多级缓存减速的计划。基于全分布式架构,提供 100GB/ s 带宽、1000 万 IOPS 的极致性能。并通过长久化客户端缓存技术,将裸金属服务器本地 NVMe SSD 和 Turbo 文件系统形成对立命名空间,实现微秒级延时,解決大模型场景大数据量、高带宽、低延时的诉求。同时,通过智能分层技术,主动对冷热数据分层,节俭 80% 的存储老本,提供极致的性价比。

在底层架构之上,针对大模型训练场景,新一代集群集成了腾讯云自研的 TACO Train 训练减速引擎,对网络协议、通信策略、AI 框架、模型编译进行大量零碎级优化,大幅节约训练调优和算力老本。

腾讯混元大模型背地的训练框架 AngelPTM,也已通过腾讯云对外提供服务,帮忙企业减速大模型落地。在腾讯云上,企业基于 TI 平台的大模型能力和工具箱,可联合产业场景数据进行精调训练,晋升生产效率,疾速创立和部署 AI 利用。

03、多层接入,算力更易获取

因为大模型的体量单集群的节点数十分大,初创公司通常会面临问题:单集群节点须要开多大,才可能适应 AI 算力的规模?

面对这一需要,在算力层面,腾讯云针对训练、推理、测试及优化场景,提供匹配计划和产品。

其中,新一代 HCC 高性能计算集群,面向大规模 AI 训练。以专用集群形式对外提供服务,腾讯云将裸金属云服务器作为节点,满配最新代次的 GPU,并联合自研存储架构、节点之间通过自研星脉 RDMA 网络互联,给大模型训练业务提供高性能、高带宽和低提早的一体化高性能计算。

后续,针对主动驾驶训练、自然语言解决、AIGC 大模型训练、科研计算等场景下客户的高算需要,通过腾讯云裸金属、云服务器、容器、云函数等多状态多层级接入能力,都能够疾速获取。

更大规模的大模型,正在迫近算力的边界。以新一代集群为标记,腾讯云正在基于自研芯片、星星海自研服务器和分布式云操作系统遨驰,通过软硬一体的形式,打造面向 AIGC 的高性能智算网络,继续减速全社会云上翻新。

关注并星标我

公众号回复「算力」即可申请内测

正文完
 0