关于人工智能:国内首发｜焱融科技-YRCloudFile-支持-NVIDIA-GPUDirect-StorageGDS

2020 年 GPT-3 模型的参数量首次冲破千亿大关，达到了 1750 亿，堪称“鼎力出奇观”。今日凌晨，万众瞩目的大型多模态模型 GPT-4 正式公布！GPT-4 是多模态的，同时反对文本和图像输出性能。该版本“更弱小”，模型精度随着模型尺寸及训练数据的减少而显著晋升。

训练巨量模型须要微小的算力，但随着数据集和模型规模一直减少，应用程序载入数据所破费的工夫变得越长，进而影响了应用程序的性能，迟缓的 I/O 重大连累GPU 的弱小算力。如何大幅晋升 GPU 载入大型数据集的速度将是计算和存储系统独特面临的最大挑战。为更加完满地满足大规模计算集群对于存储系统的数据拜访需要，进一步施展弱小的 GPU 计算能力，将性能施展到极致，焱融技术团队历时 6 个月的工夫实现对 NVIDIA GPUDirect Storage（GDS）的适配开发，实现以间接内存的存取形式，将数据传输至 GPU 内存上，显著升高 I/O 提早，晋升数据带宽。

GDS 简述

古代 AI 和数据迷信工作是由大量数据驱动的，随着人工智能以及高性能运算的数据集规模一直减少，GPU 计算和数据中心存储系统之间的疾速通信变得至关重要。数据从 NVMe 磁盘传输到 GPU 内存的规范门路，传统的形式是由 CPU 管制的，应用零碎內存中的回弹缓存（Bounce Buffer）做数据的直达。这种操作过程会产生额定的数据拷贝工作，造成很大的零碎开销。当数据集的规模一直减少，应用程序载入数据破费的工夫会变得越来越长，进而影响了利用运行的性能。

NVIDIA GPUDirect Storage（GDS）技术通过 DMA 引擎将硬盘数据间接写入 GPU 显存，这种以间接内存的存取形式，防止了内存 bounce buffers 所带来的额定数据拷贝，从而实现 CPU 和主存的 IO 旁路，使 IO 吞吐能力不再受限于系统总线的带宽压力。近来，因为高速 RDMA 网络的遍及，GPUDirect storage 能够高效地间接拜访远端存储设备，诸如一些 NVMe的 target 计划和一些企业级分布式存储产品，它能无效加重 CPU I/O 瓶颈，晋升数据传输的 I/O 带宽的同时，升高I/O提早。

反对 GPUDirect 技术的性能收益

英伟达开发的 GPUDirect Storage 技术，大幅晋升 GPU 载入大型数据集的速度。GDS 通过更快、更间接的数据门路进步了存储和 GPU 之间数据挪动的效率。数据间接从主机上的网卡(NIC)传输到 GPU，而不须要通过零碎内存和 CPU。这种形式打消了零碎架构中 IO 门路瓶颈，缩小了不必要的数据复制，升高了提早，同时，释放出来的计算资源还可用于深度学习中诸如图形处理等其余业务。NVIDIA 示意通过反对 GPUDirect 技术可能带来多方面的性能收益：

• GDS 在存储和 GPU 之间晋升 2～8 倍的数据传输带宽。
• 防止了 CPU 在内存中的 bounce buffers 拷贝，在某些场景下端到端传输的提早可能实现 3.8x 的升高。
• 当 GPU 并发度减少时，GDS 依然保持稳定的低提早输入。
• GPU 不仅作为实现最高带宽的计算引擎，同时也作为实现最高 IOPS 的计算引擎。在某些场景的实测数据表明，如果单纯应用 CPU，吞吐率仅能达到 50GB/s；而在应用 GPU 之后，吞吐率可达到 215 GB/s。因而，能反对 GDS 的存储系统更能充沛匹配前端的异构计算能力。

GPUDirect Storage 架构图

焱融分布式文件存储系统 YRCloudFile 反对 GDS 的大体流程：

YRCloudFile 客户端向nvidia-fs 注册后，cuFile 关上一个YRCloudFile 集群文件，会将 nvidia-fs 和YRCloudFile 的特定接口进行绑定，当 io 下发到client 中，client 检测该 IO 是否是GDS 的申请，如果是，则回调 nvidia-fs 的 map 接口，取得 sglist 申请的 dma 地址，借助底层驱动能力，实现数据的RMDA 传输。

写到最初

NVIDIA®Magnum IO GPUDirect® 技术，可能显著升高 GPU 服务器内的 CPU 占用率，减少存储带宽并缩小提早。焱融科技是国内反对 GPUDirect® 性能的首家分布式文件存储厂商，可能更好地治理数据门路。焱融文件存储系统与 GDS 的组合使得数据在应用程序和存储之间通过更短、更无效的门路传输，实现1+1>2 的性能成果。从而使反对 GDS 的应用程序可能充沛开释 GPU 计算能力，为人工智能和机器学习（AI/ML）以及数据分析等业务减速。

2022 年，焱融追光全闪文件一体机单存储节点达到 40GB/s+ 带宽和 200万+IOPS 性能，并利用于人工智能、智能汽车、智能制作、教育等行业生产环境中，为企业用户胜利构建高性能存储平台。在服务寰球 500 强制造业的客户中，实现国内首个双 200Gb 网络聚合分布式文件存储集群部署，实现 AI 计算平台破千万 IOPS 性能实际。

关于人工智能:国内首发｜焱融科技-YRCloudFile-支持-NVIDIA-GPUDirect-StorageGDS

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于人工智能:国内首发｜焱融科技-YRCloudFile-支持-NVIDIA-GPUDirect-StorageGDS

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复