乐趣区

关于数据库:焱融全闪-X-NVIDIA-InfiniBand打造-AI-时代-GPU-计算的高性能存储技术

InfiniBand 技术正在一直发明更高的数据吞吐量记录,目前 200Gbps 网络曾经遍及,400Gbps 紧随其后。同时,通过 multi-path 技术将多网卡带宽性能聚合。原生反对 RDMA 技术,在保障高带宽输入的根底上,大大降低数据拜访提早,为高性能计算、人工智能、云计算、存储等泛滥数据密集型利用提供了弱小的网络性能撑持。

焱融科技基于高性能分布式并发文件存储系统 YRCloudFile,并联合 NVIDIA Quantum InfiniBand 高速网络平台、NVMe SSD,推出追光 F8000X 全闪分布式文件存储产品,在充沛开释性能的同时,实现零碎随着业务需要动静减少节点数量,使得存储容量和存储性能都以线性形式增长,并无效均衡数据存储老本和空间扩大能力。

传统存储架构面临性能和低效传输带来的挑战

随着 AI、数据分析和 HPC 等新兴数据密集场景的深刻交融,越来越多的企业不仅须要超高性能底层算力,更须要保障高带宽、高 IOPS、低提早和稳固数据拜访性能的存储系统,然而传统存储计划普遍存在以下几个问题:

1、因为存储介质、网络传输和文件系统自身的限度,存储系统很难同时兼顾高性能、高 IOPS 和低提早的性能要求;
2、存储软件层面只能对于不同的数据存取模式采取相应设计和优化,很难全面兼顾产品性能体现。

因而,以后大规模计算平台对高性能数据存储产生迫切需要,并面临现有传统存储技术低效传输所带来的挑战。

焱融全闪 X NVIDIA InfiniBand:打造 AI 时代 GPU 计算的高性能存储技术

针对传统存储计划面临问题,焱融追光 F8000X 通过 NVIDIA Quantum InfiniBand 在 GPU 计算服务器和存储设备之间构建的高带宽和低提早数据传输网络,以满足数据密集型利用零碎的网络性能要求。对于存储网络,采纳双 HDR 200Gbps InfiniBand 网卡,通过 multi-path 实现网卡聚合,实践可提供高达 400Gbps 的带宽性能,并反对 RDMA 技术,保障高带宽输入的同时,大幅度降低了数据拜访提早。

NVIDIA Quantum InfiniBand 作为业内当先、性能卓越的网络平台,为 AI、数据分析和高性能计算(HPC)利用提供高性能、高牢靠,以及超低时延的网络连接能力。

目前,焱融追光 F8000X 所采纳的分布式架构,可实现零碎随着业务需要动静减少节点数量,使得存储容量和存储性能都以线性形式增长。为了可能取得卓越的性能体现,满足 AI 时代 GPU 计算对于存储系统的需要,焱融追光 F8000X 还进行了全方位的系统优化设计:

在分布式并行文件系统层面:首先,针对海量小文件场景,焱融科技提出用横向程度扩大的形式,把单点的 MDS 集群化,采纳动态子树 + 目录 Hash 两者联合的形式,实现了元数据的散布存储,从而通过扩大元数据节点即可反对百亿级别的文件数量,极大晋升了元数据的检索性能。

其次,焱融科技优先保障大文件 IO 的吞吐性能,将控制流和数据流(即元数据和存储数据)拆散,无效缩小对 MDS 更新频率的同时,大幅提高 IO 性能。同时,为了保障小文件 IO 拜访性能,焱融科技采纳小文件内联、元数据缓存、文件信息 KV 化等技术手段,满足了企业对小文件有刻薄性能要求的场景需要。

最初对于目录热点的问题,焱融科技通过减少虚构子目录的形式把热点摊派到集群中所有的元数据节点,不仅解决了元数据热点问题,同时也解决了单目录下文件数量问题。通过减少虚构子目录使单目录能够撑持 20 亿左右的文件数量,并且能够依据虚构子目录的数量灵便调整。

在数据传输层面:焱融科技在高性能分布式存储里实现了 RDMA 传输的性能,能够在简直不耗费 CPU 资源的前提下达到极高的存储带宽、IOPS 和扩展性,反对通过 InfiniBand RDMA,以太网 RoCE 或 TCP 来实现客户端到存储服务端的数据交互,以及存储集群服务器之间的数据传输。
在物理存储层面:焱融追光 F8000X 采纳 NVMe SSD 构建物理存储空间,并基于 NVMe 存储架构做出了深度优化,充沛开释了 SSD 性能。不仅升高了提早,进步了 IOPS 和吞吐量,还晋升了服务器解决并发申请的能力。

追光 F8000X 高性能存储解决方案架构

在追光 F8000X 高性能存储解决方案架构根底上,焱融科技服务了某家高科技企业,针对客户面临的海量小文件解决性能和存储并行拜访等问题,提出了性能与老本兼顾的解决方案——通过追光 F8000X 所具备的海量小文件、高并发拜访等特点,以及智能分层性能将冷数据主动下沉到本地对象存储,无效解决均衡数据存储老本和空间扩大的问题。

AI 训练平台存储解决方案架构图

在落地施行追光 F8000X 后,用户无效解决了在数十亿文件场景下,元数据操作性能和小文件拜访性能衰减的问题,极大地晋升了 AI 业务的计算剖析能力,并无效升高了整体 TCO。

高负载、低提早,追光 F8000X 让性能无懈可击

在理论测试中,焱融追光 F8000X 每节点配置为 AMD EPYC 64 外围处理器,256GB 内存,2 块 200Gbps HDR InfiniBand 网卡,测试数值如下:

带宽性能

IOPS 性能

联合 NVIDIA Quantum InfiniBand 弱小的网络传输性能,追光 F8000X 优异的性能测试,实现单个存储节点达到 40GB/s 带宽、200 万以上 IOPS。同时,因为存储采纳的是分布式架构,性能能够实现线性晋升,在 6 存储节点时,性能可达 1000 万 IOPS,210GB/s 带宽,并在高负载状况下,仍然可放弃 130μs 以内的提早。

退出移动版