关于深度学习:腾讯云TStor存储一体机在大模型场景下的业务实践

引言

近年来，随着ChatGPT的公布，掀起了一股生成式AI（AIGC）的热潮。从往年开始，国内各家企业也纷纷公布了自家的大模型产品，5月科技部上司的中国科学技术信息研究所公布了《中国人工智能大模型地图钻研报告》。报告显示，截至5月28日，国内10亿级参数规模以上根底大模型至多已公布79个。掂量大模型产品能力的一个很重要的指标就是参数量，从10亿级、百亿级到当初的千亿级。参数量的快速增长，对撑持AI训练的基础设施，如计算、网络、存储等也提出了更高的要求。存储作为IT基础设施的重要组成部分，在扩展性、高性能和多协定接口等方面，也须要与时俱进。腾讯公司推出的TStor存储一体机正是这样一款存储产品，本文将基于大模型场景对存储的挑战，介绍TStor在该场景的劣势，以及在某大模型产品中的业务实际，供宽广心愿自建大模型利用的企业参考。

AI大模型场景对存储的要害需要

在AI大模型场景下，对存储系统提出了几个要害需要：
1. 大容量
AI大模型须要解决和存储海量的训练数据和两头后果，个别数据量在PB级甚至EB级。因而，存储系统须要具备高可扩展性，以满足这些大规模数据的存储需要。TStor存储一体机基于分布式架构，最小规模三节点起步，反对横向扩大，满足了AI大模型场景海量数据存取需要。

2. 高性能
AI大模型的训练和推理过程对存储系统的读写性能要求十分高，特地是在数据集读取和checkpoint的读写，须要高带宽的数据传输和低提早的响应。因而，存储系统须要具备高性能的特点，以保障AI大模型的高效运行。TStor存储一体机，联合腾讯云自研的星星海服务器，搭载高性能NVMe闪存盘，可提供数百GB/s的带宽，大幅缩短数据读写工夫，晋升整体训练效率。

3. 多协定接口
AI训练的数据起源多种多样，波及到多种数据类型和格局，不同的利用对于存储接口的需要也不一样。因而，须要存储系统具备多协定接口的特点，以便反对不同类型的数据存储和拜访。TStor存储一体机反对支流的文件(NFS、CIFS、FTP等)、块、对象(S3)等存储接口，不便对接不同下层利用，满足简单文件类型的存储需要，为AI训练数据的归集和荡涤提供高效的存储平台。

TStor存储一体机在大模型场景下的实际

某企业自建了一套AIGC大模型训练集群，原始的训练数据多达数十PB，荡涤后用于训练的数据有数个PB，模型参数量高达千亿级。该企业抉择了TStor存储一体机，用于满足该场景下刻薄的存储需要。计划整体架构如下图所示：

在训练数据的归集阶段，TStor基于大容量低成本的HDD硬盘，搭建了一套存储集群，用于海量原始训练数据的集中存储。每个数据节点配置了60块20TB硬盘，单节点的原始容量高达1.2PB。底层数据冗余应用了具备更高容量利用率的纠删码算法，进一步升高了数据存储的老本。该集群对外提供文件和对象存储接口，对接了企业内的十多个业务数据源。同时，咱们还启用了数据的生命周期治理性能，将近期不再应用的冷数据沉降到了更低存储老本的介质上长期归档保留。

原始训练数据通过荡涤、标记等解决后，保留在另一套TStor集群中，用于模型训练。在训练数据的加载阶段，从该集群读取数据。另外，在训练过程中，每隔一段时间，会将checkpoint数据写入该集群。为了满足训练阶段的高性能需要，咱们基于全NVMe闪存配置的机器，搭建了这套TStor集群。每个节点配置了24块7.68TB的NVMe闪存，装备100GE网卡来打消网络瓶颈，整个集群规模在数十个节点，无效容量达到数个PB。在集群运行过程中，咱们察看到数据读写带宽达到数百GB/s。在如此高的负载下，TStor存储集群依然可能长期稳固运行，无效晋升了大模型训练的效率，缩短了训练工夫。

实践证明，TStor存储一体机齐全可能胜任AIGC大模型场景对存储的刻薄要求。如果您有自建大模型训练集群的需要，欢送公众号留言与咱们分割，咱们将致力于为您提供最优的AIGC大模型训练存储解决方案。

关于深度学习:腾讯云TStor存储一体机在大模型场景下的业务实践

引言

AI大模型场景对存储的要害需要

TStor存储一体机在大模型场景下的实际

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于深度学习:腾讯云TStor存储一体机在大模型场景下的业务实践

引言

AI大模型场景对存储的要害需要

TStor存储一体机在大模型场景下的实际

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复