近日,焱融全闪分布式文件存储 F8000X 在英伟达网络中国实验室胜利实现与 NVIDIA Quantum-2 InfiniBand ConnectX-7 NDR 400Gbps 智能网卡 (HCA) 的适配及性能调优,其在存储层反对多张 InfiniBand 网卡聚合,实现多卡性能叠加和高可用。实测单个存储节点配置 2 张 NDR 400Gbps 网卡,可达 80GBps 带宽和 300 万 IOPS 的极致性能,是国内首家反对 NVIDIA Quantum-2 InfiniBand ConnectX-7 系列网卡的文件存储厂商。
实现 AI 大模型先进算力 存储网络是要害
近年来,HPC 高性能计算与人工智能、大数据等新兴技术互相交融,催生了泛滥新的利用与翻新,如迷信智能 AI for Science,也推动了大型智算数据中心的建设。随着数据中心分布式计算集群的规模越来越大,数据量指数级收缩,而大规模集群间大量数据传输的开销也越来越大,这须要高性能、低延时的网络来实现对算⼒、存储等散布资源的整合。比方:大模型训练集群往往采纳混合并行(模型并行 + 数据并行 + 张量并行)的形式进行训练,GPU 集群从存储集群拉去样本数据、GPU 节点之间的参数交互,这两个数据传输的流程都须要高性能、低延时的网络作为根底。
InfiniBand 作为高性能计算的计算机网络通信规范,具备极高的吞吐量和极低的提早,用于计算机与计算机之间的数据互连,是业界公认的在 HPC、大模型 AI 训练等计算场景中首选网络类型。在最新公布的寰球最强超级计算机排名 Top500 的榜单中,InfiniBand 网络再次以相对的数量和性能劣势蝉联超级计算机互连设施数量榜首。
InfiniBand 网络在 Top500 网络互联技术占比
NVIDIA Quantum-2 采纳第七代 NVIDIA InfiniBand 网络架构,支持软件定义网络、网络计算、性能隔离、高级减速引擎、原生反对 RDMA 等技术个性,高达 400 GBps 的网络带宽,在降低成本和复杂性的同时为高性能计算 (HPC)、AI 和超大规模云基础设施中带来超强性能的网络平台撑持。
焱融追光 F8000X 是焱融科技为匹配大规模 GPU 并发数据处理需要,倾力打造的全闪分布式文件存储一体机系列产品。搭载新一代 64 位计算平台和焱融高性能分布式文件存储系统 YRCloudFile,采纳全 NVMe 闪存介质、200/400Gbps InfiniBand 和 100GbE 以太网等高速网络,反对 RDMA、RoCE 和多网卡聚合技术,凭借极致存储性能充沛开释计算后劲。为充分发挥出全闪存储介质(NVMe SSD)和 InfiniBand 高速网络等先进硬件的能力,完满匹配高性能 GPU 算力集群对数据拜访的需要,焱融 F8000X 进行了全面深度的优化设计:
- 异步多队列线程池模型:可能充分利用 NVMe 的多队列个性,高效调配处理器外围资源,撑持网络层面高并发数据收发解决的同时,还能够防止大量线程的调度开销,充分发挥 NVMe SSD 磁盘性能。
- 采纳 Polling 的形式缩小零碎上下文切换,升高提早:针对 NVMe 全闪零碎采纳间接 Polling 的形式,相当于是用 CPU 资源换取低提早,每个盘启动一个线程始终 polling,当来工作时立马去感知到事件去解决,使得 IOPS 晋升,升高提早。
- 通过 Multi-Channel 技术实现多张 InfiniBand 网卡带宽性能聚合,在大 IO 场景下能够轻松跑满全副网卡性能,单个存储节点能够达到 80 GBps 带宽和 300 万以上的 IOPS 的极致性能。同时反对多网卡的 failover 以及自动检测的 failback 性能,防止链路故障造成的业务中断。
- 反对 NVIDIA GPUDirect Storage(GDS)技术:反对 GPUDirect Storage(GDS)性能,可能更好地治理数据门路,使得数据在应用程序和存储之间通过更短、更无效的门路传输。从而使反对 GDS 的应用程序可能充沛开释 GPU 计算能力,为人工智能和机器学习(AI/ML)以及数据分析等业务减速。
400Gbps InfiniBand ✖️焱融全闪 F8000X 性能飙升 100%
在理论测试中,焱融全闪分布式文件存储 F8000X 搭载 NVIDIA Quantum-2 InfiniBand NDR 400Gbps 与上一代 NVIDIA Quantum InfiniBand HDR 200Gbps 网络的实测性能比照体现如下:
IOPS 性能
带宽性能
能够看到,搭载 2 张 NDR 400Gbps InfiniBand 网卡的 F8000X 存储节点,每个存储节点的带宽性能能够达到 80GBps,IOPS 性能能够达到 300 万,性能晋升 100%。
作为焱融科技的深度合作伙伴,英伟达示意:“焱融科技是国内最早采纳 Quantum 平台 InfiniBand 的并行文件存储系统的合作伙伴,基于 InfiniBand 原生 RDMA,无损网络及超低时延的个性,焱融的并行文件系统 YRCloudFile 具备业界一流的存储性能和靠近线性的扩大能力,非常适合大规模高性能集群的存储场景利用。”
——英伟达网络高级市场开发经理陈龙
焱融科技作为业界当先的分布式文件存储厂商,推出的 F8000X 全闪分布式文件存储产品,国内首家反对 400Gbps NDR InfiniBand 网络,并率先通过 Multi-Channel 技术支持 800Gbps InfiniBand 网络,再次实现微小性能晋升。F8000X 全闪分布式文件存储产品宽泛应用于 HPC 高性能计算、AI 大模型训练、高性能数据分析 HPDA、主动驾驶、生信剖析等利用场景,并在人工智能、主动驾驶、互联网、工业制作等多个行业用户的外围业务平台上线,落地数十家当先的企业和科研机构,部署规模达到数百个存储节点,撑持的最大计算集群规模超过 2000 台计算节点,是企业首选的高性能存储系统。
举荐浏览
国内首发|焱融科技 YRCloudFile 反对 NVIDIA GPUDirect Storage(GDS)
焱融全闪 X NVIDIA InfiniBand:打造 AI 时代 GPU 计算的高性能存储技术