关于腾讯云:面向大模型训练腾讯云发布新一代高性能计算集群

国内性能最强的大模型计算集群，来了！ 4月14日，腾讯云正式公布面向大模型训练的新一代HCC（High-Performance Computing Cluster）高性能计算集群。该集群采纳最新一代腾讯云星星海自研服务器，搭载了NVIDIA H800 Tensor Core GPU，并提供业界目前最高的3.2T超高互联带宽。实测结果显示，腾讯云新一代集群的算力性能较前代晋升高达3倍。去年10月，腾讯实现首个万亿参数的AI大模型——混元NLP大模型训练。在等同数据集下，将训练工夫由50天缩短到11天。如果基于新一代集群，训练工夫将进一步缩短至4天。

大模型进入万亿参数时代，对算力的需要陡增。在单体服务器计算能力无限的状况下，须要将上千台服务器相连，打造大规模、分布式的高性能计算集群。腾讯云新一代集群通过对单机算力、网络架构和存储性能进行协同优化，可能为大模型训练提供高性能、高带宽、低提早的智算能力撑持。计算层面，服务器的单机性能是集群算力的根底。在非稠密规格状况下，新一代集群单GPU卡反对输入最高 495 TFlops（TF32）、989 TFlops （FP16/BF16）、1979 TFlops（FP8）的算力。针对大模型训练场景，腾讯云星星海服务器采纳6U超高密度设计，相较行业可反对的上架密度进步30%；利用并行计算理念，通过CPU和GPU节点的一体化设计，将单点算力性能晋升至最强。

网络层面，计算节点间存在海量的数据交互需要，随着集群规模扩充，通信性能会间接影响训练效率。腾讯自研的星脉网络，为新一代集群带来了业界最高的3.2T的超高通信带宽。节点内外对立的AllReduce通信带宽，实现网络和算力的最大协同。实测结果显示，搭载同样的GPU，最新的3.2T星脉网络相较1.6T网络，能让集群整体算力晋升20%。

基于多轨道聚合的无阻塞网络架构、被动拥塞管制和定制减速通信库，腾讯云能提供业界当先的集群构建能力，反对单集群高达十万卡级别的组网规模。在超大集群场景下，依然能放弃优良的通信开销比和吞吐性能，满足大模型训练以及推理业务的横向扩大。同时，腾讯自研高性能汇合通信库TCCL，基于星脉网络硬件平台深度优化，在全局门路布局、拓扑感知亲和性调度、网络故障实时告警/自愈等方面融入了定制设计的解决方案。绝对业界开源汇合通信库，为大模型训练优化40%负载性能，打消多个网络起因导致训练中断问题。存储层面，训练场景下，几千台计算节点会同时读取一批数据集，须要尽可能缩短数据集的加载时长。新一代集群，引入了腾讯云最新自研存储架构，反对不同场景下对存储的需要。 COS+GooseFS对象存储计划，提供多层缓存减速，大幅晋升端到端的数据读取性能；将公开数据集、训练数据、模型后果对立存储到对象存储COS中，实现数据对立存储和高效流转。同时，GooseFS按需将热数据缓存到GPU内存和本地盘中，利用数据本地性提供高性能拜访。

CFS Turbo高性能并行文件存储计划，采取多级缓存减速，基于全分布式架构，提供100GB/s带宽、1000万IOPS的极致性能。并通过长久化客户端缓存技术，将裸金属服务器本地NVMe SSD和Turbo文件系统形成对立命名空间，实现微秒级延时，解決大模型场景大数据量、高带宽、低延时的诉求。同时，通过智能分层技术，主动对冷热数据分层，节俭80%的存储老本，提供极致的性价比。

底层架构之上，针对大模型训练场景，新一代集群集成了腾讯云自研的TACO Train训练减速引擎，对网络协议、通信策略、AI框架、模型编译进行大量零碎级优化，大幅节约训练调优和算力老本。腾讯混元大模型背地的训练框架AngelPTM，也已通过腾讯云对外提供服务，帮忙企业减速大模型落地。目前，腾讯混元AI大模型曾经笼罩了自然语言解决、计算机视觉、多模态等根底模型和泛滥行业、畛域模型。在腾讯云上，企业基于TI 平台的大模型能力和工具箱，可联合产业场景数据进行精调训练，晋升生产效率，疾速创立和部署 AI 利用。

此前，腾讯多款自研芯片曾经量产。其中，用于AI推理的紫霄芯片、用于视频转码的桑田芯片已在腾讯外部交付使用，性能指标和综合性价比显著优于业界。其中，紫霄采纳自研存算架构，减少片上内存容量并应用更先进的内存技术，打消访存能力有余制约芯片性能的问题，同时内置集成腾讯自研减速模块，缩小与CPU握手等待时间。目前，紫霄曾经在腾讯头部业务规模部署，提供高达3倍的计算减速性能，和超过45%的整体老本节俭。目前，腾讯云的分布式云原生调度总规模超过1.5亿核，并提供16 EFLOPS（每秒1600亿亿次浮点运算）的智算算力。将来，新一代集群不仅能服务于大模型训练，还将在主动驾驶、科学计算、自然语言解决等场景中充沛利用。以新一代集群为标记，基于自研芯片、星星海自研服务器和分布式云操作系统遨驰，腾讯云正通过软硬一体的形式，打造面向AIGC的高性能智算网络，继续减速全社会云上翻新。

关于腾讯云:面向大模型训练腾讯云发布新一代高性能计算集群

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于腾讯云:面向大模型训练腾讯云发布新一代高性能计算集群

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复