大模型要胜利,算力是要害。

这是腾讯云面向大模型训练场景,公布的全新一代的HCC高性能计算集群性能参数:

“算力性能和上一代相比晋升3倍,服务器接入带宽从1.6T晋升到3.2T。”

采纳最新一代腾讯云星星海自研服务器,并搭载NVIDIA H800 Tensor Core GPU的这代HCC高性能集群,单GPU卡反对输入最高1979 TFlops的算力。

具体强在哪里?

去年10月,腾讯实现首个万亿参数的AI大模型——混元NLP大模型训练。在等同数据集下,将训练工夫由50天缩短到11天。如果基于新一代集群,训练工夫将进一步缩短至4天。

01、单纯堆卡,算力并不能线性增长

模型热度继续低落,但要训练一个胜利的大模型,算力,算法、数据三者缺一不可。

越强的大模型,越须要更强的算力来实现训练。领有弱小的算力是AI大模型胜利的要害。

在单体服务器计算能力无限的状况下,须要将上千台服务器相连,打造大规模、分布式的高性能计算集群。业界标杆的大模型,对训练算力需要广泛十分高,应用成千上万张GPU卡。

如此宏大的参数规模,独自一块GPU运算卡甚至都实现不了最根本的装载,这也使得咱们要用网络联接成千上万的服务器组建大规模算力集群,为大模型提供所需的算力。

HCC高性能计算集群就是在这样的需要下诞生,然而,要把这么多的卡“串联“起来,背地须要很强的技术能力。

因为依据木桶效应,单纯堆卡并不能带来算力的线性增长。它须要的是计算、存储、网络以及下层的框架等各个环节全面协调配合,能力输入一个高性能、高带宽、低提早的智算能力平台。

02、最强算力背地是底层自研技术的冲破

为了提供极致的算力输入,腾讯云HCC高性能集群,从底层基础设施到下层的训练框架,做了多方面的技术创新。

2.1 计算:业界当先的超高密度,将单点算力性能晋升至更高

服务器的单机性能是集群算力的根底。在非稠密规格状况下,新一代集群单GPU卡反对输入最高 495 TFlops(TF32)、989 TFlops (FP16/BF16)、1979 TFlops(FP8)的算力。

针对大模型训练场景,腾讯云星星海服务器采纳6U超高密度设计,相较行业可反对的上架密度进步30%;

利用并行计算理念,通过CPU和GPU节点的一体化设计,将单点算力性能晋升至更高;

全面降级第四代英特尔至强扩大处理器,服务器PCIe带宽、内存带宽最高晋升100%。

2.2 网络:自研星脉高性能计算网络,将集群算力再晋升20%

咱们晓得,模型参数量越大,对带宽的需要就越高。成千上万的GPU卡协同工作数周甚至更久,GPU 与 GPU 间、服务器与服务器节点之间存在海量的外部数据交互需要。

传统的中小模型训练,往往只须要大量 GPU 服务器参加,跨服务器的通信需要绝对少,能够沿用通用的 100Gbps 带宽。而万亿参数大模型训练,是一种带宽敏感的计算业务,往往是All-to-All的通信模式。

在大模型场景下,相比单点GPU故障只影响集群算力的千分之几,一条链路的负载不均导致网络梗塞,就会成为木桶短板,影响到数十个甚至更多GPU的连通性。

同时,集群训练也会引入额定的通信开销,导致 N 个 GPU 算力达不到单个GPU 算力的N 倍。业界开源的GPU汇合通信库(比方NCCL),也不能将网络的通信性能施展到极致。

如果说业界最新代次的GPU是跑车,那么咱们须要一条业余赛道,能力让N个GPU组成的大模型训练集群最大限度地施展后劲。

腾讯自研的星脉高性能计算网络,就是这条业余赛道。这条赛道对GPU集群网络做了深度定制。减少了网络节点带宽,为计算节点提供3.2T ETH RDMA高性能网络,大幅升高了通信耗时的占比。

这相当于同样的GPU卡,用超带宽网络将集群算力提至更高。实测结果显示,搭载同样的GPU,最新的3.2T星脉网络相较1.6T网络,让集群整体算力晋升20%。

这条赛道,对“交通规则”也做了优化。在大规模的训练集群中,GPU之间的通信实际上由多种形式的网络承载,有机间网络,也有机内网络。

传统上的通信计划,存在大量的机间网络通信,导致集群的通信开销很大。星脉高性能计算网络将两种网络同时利用起来,将小流聚合为大流,通过缩小流量的数目,从而晋升整网的传输性能。实测显示,在大规模All-to-All场景下,星脉高性能计算网络能帮忙通信的传输性晋升30%。

基于多轨道聚合的无阻塞网络架构、被动拥塞管制和定制减速通信库,目前,新一代集群能提供业界当先的集群构建能力,反对单集群高达十万卡级别的组网规模。

腾讯自研高性能汇合通信库TCCL,基于星脉网络硬件平台深度优化,在全局门路布局、拓扑感知亲和性调度、网络故障实时告警/自愈等方面融入了定制设计的解决方案。绝对业界开源汇合通信库,为大模型训练优化40%负载性能,打消多个网络起因导致训练中断问题。

在超大集群场景下,依然能放弃优良的通信开销比和吞吐性能,满足大模型训练以及推理业务的横向扩大。

2.3 存储:TB级吞吐能力和千万级IOPS,缩小计算节点期待

近5年,模型参数量增长十万倍,而GPU显存只增长了 4 倍。实践上,云上的池化资源能解决这一问题。

但训练场景下,几千台计算节点会同时读取一批数据集,存储桶还面临着高并发的问题。大模型的数据集次要是GB级的大文件,从加载模型到启动实现须要数分钟,如果GPU资源闲置,也会拖慢整体训练效率。

如果说大模型算力中的网络,是为GPU修了一条业余赛道。那么高性能存储,则是一个“秒换轮胎”的维修站,提前备好数据,尽量减少计算节点的期待,让集群性能进一步迫近最优。

新一代集群,引入了腾讯云最新自研存储架构,具备TB级吞吐能力和千万级IOPS,反对不同场景下对存储的需要。

COS+GooseFS计划,提供基于对象存储的多层缓存减速,大幅晋升端到端的数据读取性能,为大模型场景提供海量、极速、高性价比的存储计划;将公开数据集、训练数据、模型后果对立存储到对象存储COS中,实现数据对立存储和高效流转。GooseFS按需将热数据缓存到GPU内存和本地盘中,为大模型训练提供低延时的本地化拜访能力,减速训练过程、晋升训练效率。

CFS Turbo高性能并行文件存储,采取多级缓存减速的计划。基于全分布式架构,提供100GB/s带宽、1000万IOPS的极致性能。并通过长久化客户端缓存技术,将裸金属服务器本地NVMe SSD和Turbo文件系统形成对立命名空间,实现微秒级延时,解決大模型场景大数据量、高带宽、低延时的诉求。同时,通过智能分层技术,主动对冷热数据分层,节俭80%的存储老本,提供极致的性价比。

在底层架构之上,针对大模型训练场景,新一代集群集成了腾讯云自研的TACO Train训练减速引擎,对网络协议、通信策略、AI框架、模型编译进行大量零碎级优化,大幅节约训练调优和算力老本。

腾讯混元大模型背地的训练框架AngelPTM,也已通过腾讯云对外提供服务,帮忙企业减速大模型落地。在腾讯云上,企业基于TI 平台的大模型能力和工具箱,可联合产业场景数据进行精调训练,晋升生产效率,疾速创立和部署 AI 利用。

03、多层接入,算力更易获取

因为大模型的体量单集群的节点数十分大,初创公司通常会面临问题:单集群节点须要开多大,才可能适应AI算力的规模?

面对这一需要,在算力层面,腾讯云针对训练、推理、测试及优化场景,提供匹配计划和产品。

其中,新一代HCC高性能计算集群,面向大规模AI训练。以专用集群形式对外提供服务,腾讯云将裸金属云服务器作为节点,满配最新代次的GPU,并联合自研存储架构、节点之间通过自研星脉RDMA网络互联,给大模型训练业务提供高性能、高带宽和低提早的一体化高性能计算。

后续,针对主动驾驶训练、自然语言解决、AIGC大模型训练、科研计算等场景下客户的高算需要,通过腾讯云裸金属、云服务器、容器、云函数等多状态多层级接入能力,都能够疾速获取。

更大规模的大模型,正在迫近算力的边界。以新一代集群为标记,腾讯云正在基于自研芯片、星星海自研服务器和分布式云操作系统遨驰,通过软硬一体的形式,打造面向AIGC的高性能智算网络,继续减速全社会云上翻新。

关注并星标我

公众号回复「算力」即可申请内测