共计 1964 个字符,预计需要花费 5 分钟才能阅读完成。
2020 年 GPT-3 模型的参数量首次冲破千亿大关,达到了 1750 亿,堪称“鼎力出奇观”。今日凌晨,万众瞩目的大型多模态模型 GPT-4 正式公布!GPT-4 是多模态的,同时反对文本和图像输出性能。该版本“更弱小”,模型精度随着模型尺寸及训练数据的减少而显著晋升。
训练巨量模型须要微小的算力,但随着数据集和模型规模一直减少,应用程序载入数据所破费的工夫变得越长,进而影响了应用程序的性能,迟缓的 I/O 重大连累 GPU 的弱小算力。如何大幅晋升 GPU 载入大型数据集的速度将是计算和存储系统独特面临的最大挑战。为更加完满地满足大规模计算集群对于存储系统的数据拜访需要,进一步施展弱小的 GPU 计算能力,将性能施展到极致,焱融技术团队历时 6 个月的工夫实现对 NVIDIA GPUDirect Storage(GDS)的适配开发,实现以间接内存的存取形式,将数据传输至 GPU 内存上,显著升高 I/O 提早,晋升数据带宽。
GDS 简述
古代 AI 和数据迷信工作是由大量数据驱动的,随着人工智能以及高性能运算的数据集规模一直减少,GPU 计算和数据中心存储系统之间的疾速通信变得至关重要。数据从 NVMe 磁盘传输到 GPU 内存的规范门路,传统的形式是由 CPU 管制的,应用零碎內存中的回弹缓存(Bounce Buffer)做数据的直达。这种操作过程会产生额定的数据拷贝工作,造成很大的零碎开销。当数据集的规模一直减少,应用程序载入数据破费的工夫会变得越来越长,进而影响了利用运行的性能。
NVIDIA GPUDirect Storage(GDS)技术通过 DMA 引擎将硬盘数据间接写入 GPU 显存,这种以间接内存的存取形式,防止了内存 bounce buffers 所带来的额定数据拷贝,从而实现 CPU 和主存的 IO 旁路,使 IO 吞吐能力不再受限于系统总线的带宽压力。近来,因为高速 RDMA 网络的遍及,GPUDirect storage 能够高效地间接拜访远端存储设备,诸如一些 NVMe 的 target 计划和一些企业级分布式存储产品,它能无效加重 CPU I/O 瓶颈,晋升数据传输的 I/O 带宽的同时,升高 I / O 提早。
反对 GPUDirect 技术的性能收益
英伟达开发的 GPUDirect Storage 技术,大幅晋升 GPU 载入大型数据集的速度。GDS 通过更快、更间接的数据门路进步了存储和 GPU 之间数据挪动的效率。数据间接从主机上的网卡 (NIC) 传输到 GPU,而不须要通过零碎内存和 CPU。这种形式打消了零碎架构中 IO 门路瓶颈,缩小了不必要的数据复制,升高了提早,同时,释放出来的计算资源还可用于深度学习中诸如图形处理等其余业务。NVIDIA 示意通过反对 GPUDirect 技术可能带来多方面的性能收益:
• GDS 在存储和 GPU 之间晋升 2~8 倍的数据传输带宽。
• 防止了 CPU 在内存中的 bounce buffers 拷贝,在某些场景下端到端传输的提早可能实现 3.8x 的升高。
• 当 GPU 并发度减少时,GDS 依然保持稳定的低提早输入。
• GPU 不仅作为实现最高带宽的计算引擎,同时也作为实现最高 IOPS 的计算引擎。在某些场景的实测数据表明,如果单纯应用 CPU,吞吐率仅能达到 50GB/s;而在应用 GPU 之后,吞吐率可达到 215 GB/s。因而,能反对 GDS 的存储系统更能充沛匹配前端的异构计算能力。
GPUDirect Storage 架构图
焱融分布式文件存储系统 YRCloudFile 反对 GDS 的大体流程:
YRCloudFile 客户端向 nvidia-fs 注册后,cuFile 关上一个 YRCloudFile 集群文件,会将 nvidia-fs 和 YRCloudFile 的特定接口进行绑定,当 io 下发到 client 中,client 检测该 IO 是否是 GDS 的申请,如果是,则回调 nvidia-fs 的 map 接口,取得 sglist 申请的 dma 地址,借助底层驱动能力,实现数据的 RMDA 传输。
写到最初
NVIDIA®Magnum IO GPUDirect® 技术,可能显著升高 GPU 服务器内的 CPU 占用率,减少存储带宽并缩小提早。焱融科技是国内反对 GPUDirect® 性能的首家分布式文件存储厂商,可能更好地治理数据门路。焱融文件存储系统与 GDS 的组合使得数据在应用程序和存储之间通过更短、更无效的门路传输,实现 1 +1>2 的性能成果。从而使反对 GDS 的应用程序可能充沛开释 GPU 计算能力,为人工智能和机器学习(AI/ML)以及数据分析等业务减速。
2022 年,焱融追光全闪文件一体机单存储节点达到 40GB/s+ 带宽和 200 万 +IOPS 性能,并利用于人工智能、智能汽车、智能制作、教育等行业生产环境中,为企业用户胜利构建高性能存储平台。在服务寰球 500 强制造业的客户中,实现国内首个双 200Gb 网络聚合分布式文件存储集群部署,实现 AI 计算平台破千万 IOPS 性能实际。