关于文件存储:最佳实践|焱融全闪存储实现与美的集团破千万-IOPS-性能

43次阅读

共计 2739 个字符,预计需要花费 7 分钟才能阅读完成。

焱融全闪文件存储实现国内制造业首个双 200Gb 网络聚合分布式文件存储集群部署,实现 AI 计算平台破千万 IOPS 性能。

后疫情时代,集体与居家环境的关系悄悄地产生着变动。随着人们在家里破费的工夫更多,打造舒服、便捷、智能化的居家生存环境成为不少人关注的方向,智能家居让生存变得更高效更乏味。

美的团体是一家寰球 500 强企业,其业务笼罩智能家居、楼宇科技,工业技术、机器人与自动化和数字化翻新业务五大板块。近些年来,美的从新定义行业智能规范,通过技术革新推动用户连贯体验晋升,将“全面数字化、全面智能化”作为企业倒退的策略体系。2021 年 10 月,美的就创新性地提出联合物理空间、互联网空间、虚拟空间的“元家居”的概念,基于感知、通信、AI、大数据、虚拟现实等根底技术,实现数字家庭孪生,提供全新的物联网利用与交互体验,让用户享受更深刻的智能服务。

宏大的数据规模 存储架构降级迫不及待

美的 AI 翻新核心在技术方面有六个钻研方向,即语音,计算机视觉,导航,边端智能,常识图谱,机器人学习。随着美的人工智能翻新核心 GPU 服务器节点规模以及数据规模的一直增长,对存储系统的容量、性能和可管理性提出更为刻薄的要求。目前正应用的存储计划广泛是针对规范的负载类型,在须要满足数据密集型利用负载的数据拜访需要时迎来很大挑战。现阶段美的人工智能翻新核心面临以下问题:

  • 随着日益增长的数据,现阶段小文件数量已达 10 亿,预计前期可能冲破百亿级别,现有的存储性能随着数据量的增长出现衰减趋势;
  • 随着 GPU 服务器的增多,客户端的并发数出现指数级别的增长,目前的并发节点已冲破上百台,并发节点越多越容易呈现客户端夯死或者解体的状况;
  • 在日常模型训练过程中,存储端的性能瓶颈尤为突出,使得整个 GPU 集群无奈施展出极限性能,训练效率极大地升高;
  • 现有的存储在对接下层容器业务显得越发吃力,无奈为容器化训练提供长久化和灵活化的拜访能力;

焱融在和美的一起对业务逻辑进行深度的剖析和梳理,发现美的人工智能翻新核心对于存储的需要须要满足以下几点:

  1. 撑持数千台节点的高并发拜访而不解体;
  2. 保障模型训练中存储的高 IOPS、高带宽、低延时的拜访能力,为 GPU 服务器提供足够高的存储数据传输带宽,充沛开释 GPU 算力;
  3. 撑持百亿级别的文件的读写性能和元数据操作性能,满足大量特色文件或聚合后的文件的存储需要;
  4. 能够为下层训练模型利用提供标准文件接口用于数据拜访,并为容器化的训练任务提供灵便的数据拜访能力;
  5. 能够兼容高性能网络,可能反对最高 400Gb 的 IB 网络,能将存储能力通过高性能网络供应到计算层,实现数据流转;

美的须要解决以上问题来满足 AI 计算场景对存储的极高 IOPS 和带宽、极低延时需要,撑持整个翻新核心的算法工程师的人工智能模型的开发和训练。

全闪文件存储为美的打造高性能 AI 训练平台

基于以上诉求,本次计划建设指标是:

  • 降级训练平台,晋升算力,减速开发和训练 AI 模型,晋升企业数字化竞争力;
  • 构建可能匹配大规模 GPU 计算集群数据拜访需要的存储与网络系统。将计算、网络、存储三个外围能力达成完满匹配,最大化晋升整体平台算力输入,以满足客户业务需要和整体 AI 训练效率的晋升,更好地撑持算法工程师开发和训练人工智能模型。

焱融全闪分布式文件存储达成了存储性能与建设老本兼顾的解决方案,弹性空间扩大能力,无效均衡数据存储老本。联合 InfiniBand 技术和追光 F8000X 针对海量小文件高并发拜访等方面的优化设计,取得了超高性能体现。同时,得益于分布式存储架构、数据智能加载和分层性能,针对异构存储并存的利用场景,灵便高效地驱动数据在不同存储平台流动,不便用户组织数据集进行计算剖析;应用 F8000X 将数据依照生命周期管理策略分层到本地低速存储或者云端,对业务端提供对立命名空间,升高应用复杂度,晋升了数据存储应用的经济性。

  • 集群内单存储节点性能可达 200 万 IOPS 性能,40GB/s 带宽;
  • 反对横向扩大,性能随节点线性晋升,在 6 存储节点下,性能可达 1000 万 + IOPS,200GB/s + 带宽;

以下是解决方案中的根本组件:
存储系统:焱融追光 F8000X 全闪分布式存储一体机集群
计算零碎:多卡 GPU 服务器集群
网络系统:NVIDIA Quantum InfiniBand Switch & 万兆以太网络

  • AI 训练平台(指高性能场景)与一般性业务(指非高性能场景)采纳不同的网络接入计划,兼具性能、可靠性和经济性:
  • AI 训练集群:AI 训练集群中 GPU 计算节点通过两台 NVIDIA QUANTUM QM8700 网络交换机与焱融全闪一体机 F8000XD 存储集群互联。冗余的网络设计确保连贯到网络的每台设施之间无阻塞数据通信。在确保集群高性能运行的同时保障其具备优良的容错能力,实现高可用;
  • 数据预处理集群:服务器集群通过万兆网络交换机对立接入焱融全闪一体机 F8000XD 存储集群。通过原有万兆交换机接入下层非高性能业务,提供标注、荡涤等业务的撑持;
  • 以上 AI 训练平台和一般性业务平台由一套焱融 F8000X 全闪存储系统承载,防止数据拜访孤岛;

焱融全闪一体机 F8000X 是国内少有的具备超高性能,反对多张 IB 网卡带宽性能聚合能力,在采纳 Round Robin 模式,在大 IO 场景下能够轻松跑满全副网卡性能,单个存储节点能够达到 40GB/s 带宽和 200 万以上的 IOPS 的极致性能。同时反对多网卡的 failover 以及自动检测的 failback 性能,防止链路故障造成的业务中断。

破千万 IOPS 性能、训练工夫缩短了 71%

通过实测数据证实,焱融 F8000X 全闪分布式文件存储系统构建的 AI 计算共享存储平台,可能满足大规模 GPU 计算集群的高并发数据拜访,并依据业务要求能够同步扩大性能和容量。无效打消了存储性能瓶颈,充沛开释了 GPU 计算后劲,可能轻松应答各种数据密集型工作负载性能要求,满足业务疾速倒退的需要。如下图所示焱融追光 F8000X 全闪存储系统可能随着集群规模的扩大线性平滑的晋升性能:

由图可见,6 台焱融 F8000X 全闪存储组成存储集群,输入 1000 万 + IOPS 和 200GB+ 带宽的稳定性能,完满反对客户 AI 平台计算集群高并发数据拜访需要,训练工夫缩短了 71%,并大幅晋升训练精度;

焱融科技作为国内惟一专一于文件存储的厂商通过其核心技术劣势率先反对 400Gbps InfiniBand 网络,打造 AI 时代 GPU 计算的高性能存储,产品性能达到行业当先。在保障高带宽输入的根底上,不仅满足 AI 计算场景对存储的要求,还大大降低了数据拜访提早,为美的团体人工智能翻新核心提供弱小的存储性能撑持。

🔍 预理解更多高性能存储解决方案,您可间接拜访:https://www.yanrongyun.com/zh-cn/download。

正文完
 0