关于深度学习:腾讯云TStor存储一体机在大模型场景下的业务实践

近年来，随着 ChatGPT 的公布，掀起了一股生成式 AI（AIGC）的热潮。从往年开始，国内各家企业也纷纷公布了自家的大模型产品，5 月科技部上司的中国科学技术信息研究所公布了《中国人工智能大模型地图钻研报告》。报告显示，截至 5 月 28 日，国内 10 亿级参数规模以上根底大模型至多已公布 79 个。掂量大模型产品能力的一个很重要的指标就是参数量，从 10 亿级、百亿级到当初的千亿级。参数量的快速增长，对撑持 AI 训练的基础设施，如计算、网络、存储等也提出了更高的要求。存储作为 IT 基础设施的重要组成部分，在扩展性、高性能和多协定接口等方面，也须要与时俱进。腾讯公司推出的 TStor 存储一体机正是这样一款存储产品，本文将基于大模型场景对存储的挑战，介绍 TStor 在该场景的劣势，以及在某大模型产品中的业务实际，供宽广心愿自建大模型利用的企业参考。

在 AI 大模型场景下，对存储系统提出了几个要害需要：
1. 大容量
AI 大模型须要解决和存储海量的训练数据和两头后果，个别数据量在 PB 级甚至 EB 级。因而，存储系统须要具备高可扩展性，以满足这些大规模数据的存储需要。TStor 存储一体机基于分布式架构，最小规模三节点起步，反对横向扩大，满足了 AI 大模型场景海量数据存取需要。

2. 高性能
AI 大模型的训练和推理过程对存储系统的读写性能要求十分高，特地是在数据集读取和 checkpoint 的读写，须要高带宽的数据传输和低提早的响应。因而，存储系统须要具备高性能的特点，以保障 AI 大模型的高效运行。TStor 存储一体机，联合腾讯云自研的星星海服务器，搭载高性能 NVMe 闪存盘，可提供数百 GB/ s 的带宽，大幅缩短数据读写工夫，晋升整体训练效率。

3. 多协定接口
AI 训练的数据起源多种多样，波及到多种数据类型和格局，不同的利用对于存储接口的需要也不一样。因而，须要存储系统具备多协定接口的特点，以便反对不同类型的数据存储和拜访。TStor 存储一体机反对支流的文件(NFS、CIFS、FTP 等)、块、对象(S3) 等存储接口，不便对接不同下层利用，满足简单文件类型的存储需要，为 AI 训练数据的归集和荡涤提供高效的存储平台。

某企业自建了一套 AIGC 大模型训练集群，原始的训练数据多达数十 PB，荡涤后用于训练的数据有数个 PB，模型参数量高达千亿级。该企业抉择了 TStor 存储一体机，用于满足该场景下刻薄的存储需要。计划整体架构如下图所示：

在训练数据的归集阶段，TStor 基于大容量低成本的 HDD 硬盘，搭建了一套存储集群，用于海量原始训练数据的集中存储。每个数据节点配置了 60 块 20TB 硬盘，单节点的原始容量高达 1.2PB。底层数据冗余应用了具备更高容量利用率的纠删码算法，进一步升高了数据存储的老本。该集群对外提供文件和对象存储接口，对接了企业内的十多个业务数据源。同时，咱们还启用了数据的生命周期治理性能，将近期不再应用的冷数据沉降到了更低存储老本的介质上长期归档保留。

原始训练数据通过荡涤、标记等解决后，保留在另一套 TStor 集群中，用于模型训练。在训练数据的加载阶段，从该集群读取数据。另外，在训练过程中，每隔一段时间，会将 checkpoint 数据写入该集群。为了满足训练阶段的高性能需要，咱们基于全 NVMe 闪存配置的机器，搭建了这套 TStor 集群。每个节点配置了 24 块 7.68TB 的 NVMe 闪存，装备 100GE 网卡来打消网络瓶颈，整个集群规模在数十个节点，无效容量达到数个 PB。在集群运行过程中，咱们察看到数据读写带宽达到数百 GB/s。在如此高的负载下，TStor 存储集群依然可能长期稳固运行，无效晋升了大模型训练的效率，缩短了训练工夫。

实践证明，TStor 存储一体机齐全可能胜任 AIGC 大模型场景对存储的刻薄要求。如果您有自建大模型训练集群的需要，欢送公众号留言与咱们分割，咱们将致力于为您提供最优的 AIGC 大模型训练存储解决方案。

关于深度学习:腾讯云TStor存储一体机在大模型场景下的业务实践

引言

AI 大模型场景对存储的要害需要

TStor 存储一体机在大模型场景下的实际