近日,计算机领域学术界、产业界、教育界年度盛会 👉 2021 中国计算机大会在深圳召开。本次大会 NVIDIA 专家团队受邀参会,焱融科技作为 NVIDIA 初创减速打算中优良成员独特参加其中。英伟达初创减速打算 NVIDIA Inception 是英伟达提供的一个减速人工智能守业公司倒退的寰球生态我的项目,该我的项目旨在造就尖端的人工智能初创企业,为各个行业带来革命性的变动。
大会现场,焱融科技 CTO 王鹏飞发表主题演讲《新型存储架构 YRCloudFile 在 AI 训练中的性能优化实际》,通过分享焱融科技服务过的 AI 客户实战经验,深入浅出地剖析如何利用焱融 YRCloudFile 解决 AI 训练过程中的存储难题。
以下是 CNCC 大会现场在 NVIDIA 专场的演讲实录,浏览时长 10 mins,Enjoy~
本次主题演讲分为三个局部
- 存储集群面临的挑战
- YRCloudFile 解决 AI 训练难题计划
- YRCloudFile 最佳利用实际
作为一家专一于软件定义存储技术的企业,焱融科技自 YRCloudFile 公布以来,长期深耕 AI 畛域,在行业内积攒了泛滥我的项目及实战经验,帮忙语音辨认、视觉辨认、主动驾驶等 AI 企业晋升训练效率,凭借高性能、高可用、高扩大、云上部署等个性,满足企业用户各种场景下的需要。
YRCloudFile 在国内多种云环境下,率先提供高性能文件存储的产品。在寰球 IO500 性能测试中,YRCloudFile 进入世界前六。同时,YRCloudFile 也是国内首个进入 CNCF Landscape 的容器存储产品。
文件系统在存储畛域次要分为三大类:对象存储、块存储和文件存储。其中,文件存储接口是下层利用最罕用的拜访形式,有超过 70% 的利用在应用文件接口。在上述存储类型中,每个都有各自的特点和劣势,然而如果想要给 AI、主动驾驶、HPC、生命科学等新型利用场景提供更好的服务,就须要一款优质的存储产品。
YRCloudFile 作为高性能、高可用、高扩大的分布式文件存储产品,实际上是专门针对上述场景进行了优化,可能反对企业对高性能、海量小文件、容器存储等方面的需要。YRCloudFile 自公布以来,长期关注“数据耗费小户”——AI,试图通过业余、当先的存储技术,帮忙企业继续优化数据处理流程。因而,咱们将从 AI 训练背地的存储难题切入,分享焱融科技的破解之法。
AI 训练背地的“血”与“泪”
AI 训练过程是十分考究的,它不仅须要大量的训练数据,而且还要兼顾性能、运行效率和数据安全。
以后,AI 训练通常会应用 GPU 服务器,其性能在算法层面会比 CPU 的体现更好一些,然而 GPU 服务器并不等于 AI 的基础架构。首先在大规模 AI 集训中,大量的数据须要传输,然而 GPU 的速度是十分快的,通常 IO 工作应用的 CPU、存储和网络难以满足 GPU 性能的需要。其次,随着容器化逐步成为 AI 集群的趋势,如何将数据提供给 K8S 平台上容器化的 AI 训练集群应用也成为一个要害难题。
说起 AI,咱们都晓得它是“人工智能”,其背地理论还是有人工的成分。目前来说,咱们通常须要以人工的形式给相干数据进行标注,以便于数据用于后续训练。数据标注对于 AI 来说,是训练的重要根底和根据。因而,数据量的多少在很大水平上决定了 AI 算法的精准度。
从理论 AI 训练来看,过程中通常产生的都是小文件,这些文件单个能够说是不占多少空间,然而它胜在量大,十分大。一旦数据量达到宏大的水平,为了保障拜访的高效性,对存储架构体系提出了十分高的要求。
在不同畛域对于海量小文件有不同的解决办法,例如将泛滥小文件汇总成一个大文件,TensorFlow 等训练框架也有对应的反对,但为了防止 AI 算法学习到因聚合文件而产生的未知法则,对算法的精度有高要求的场景,所有的文件必须处于等同的位置,不能采纳聚合的形式。
目前,AI 畛域次要应用的计划是利用本地数据中心,搭配 GlusterFS、Ceph、Lustre 等,通过网络传输的形式将数据传输到 GPU 服务器中。然而这样的办法次要存在三个问题:
- 同一份数据存储在多台 GPU 服务器上,造成冗余和节约;
- 存储保护复杂度高;
- 难以达到自动化和标准化的需要;
为了解决上述难题,给 AI 训练提供更好的性能撑持,YRCloudFile 提出了相应的解决方案。
面对 AI 训练难题,YRCloudFile 展示十八般武艺
针对上述难点,焱融科技从多个维度提供了一系列高性能、高可用、高扩大的存储计划。
首先,从组件和架构登程,咱们将为其提供以下五个技术支持:
- MS:反对集群治理服务;
- MDS:反对元数据服务,通过 SSD 磁盘次要负责数据定位等工作,并依据集群文件数量可随时程度扩大;
- Storage:数据存储服务,反对运行在 SAS / SATA / NVMe 磁盘上,存储理论数据;
- 客户端:反对通过以太网络或 InfiniBand 拜访;
- 企业级个性:反对目录 Quota、目录 QoS、数据恢复限速、拜访网络与外部网络拆散、SSD 缓存。
其次,为了实现存储全生命周期治理,达到数据对立治理和联通的目标,YRCloudFile 能够与对象存储联动,提供一层高速的文件拜访接口。同时,为了防止资源抢占的调配问题,咱们采取了冷热数据分层的技术,通过高性能文件存储 + 低成本对象存储的组合,咱们将无效实现热数据仍然为 AI 提供高性能拜访的个性,而冷数据能够在用户现有的低成本对象存储中无效保留。
为了满足 AI 训练过程多方面的需要,咱们做了局部优化:
RDMA 技术
为了升高网络传输中,服务器端数据处理造成的提早,咱们采纳了 RDMA 技术,实现当服务器网卡收到一个数据包时,能够间接在网卡上实现网络层和传输层的解析,间接将数据传递给应用层,不须要 CPU 的干涉,从而开释内存带宽并缩小 CPU 耗费,进而晋升利用零碎性能。
海量小文件
因为 AI 集群基本上都是海量数据,而且根本都是小于 1M 的小文件,海量小文件的存储与拜访对文件系统的元数据管理服务的构造提出了新的要求,所以焱融科技次要通过可程度扩大设计的 MDS 架构,实现 MDS 集群化。既实现了元数据的散布存储,防止了拜访热点,随着规模的减少,又保障了元数据的检索性能。
容器化
实际上,针对 AI 存储现状,市场上也存在一些其余计划。比方 Gartner 认为 容器和 serverless 不仅有助于简化 AI 部署的过程,使 AI 成为顶级云服务之一,而且将使机器学习模型作为独立的性能提供服务,从而以更低的开销运行 AI 利用。
作为国内首批实现容器长久化存储的厂商,YRCloudFile 不仅在架构上实现了齐全与硬件解耦,而且在通用服务器上,YRCloudFile 同样能够充分发挥出本身在高速存储介质和网络存储性能方面的劣势。同时,YRCloudFile 凭借多年的技术教训,实现了基于 CSI 接口的标准化服务,在数据流转和治理层面具备成熟的性能和服务。
经典案例分享,带你全面理解 YRCloudFile:
精选案例 | YRCloudFile 引领主动驾驶存储技术新趋势
从 0-15 套存储集群,YRCloudFile 助力 AI 训练效率“超线性增长”
在 YRCloudFile 的反对下,上述两家公司实现轻松应答海量小文件性能、容量的挑战,将更多的精力投入到训练业务中。
以上是中国计算机大会 NVIDIA 专场上给大家分享的次要内容。作为软件定义存储的引领企业,焱融科技心愿为更多行业、客户提供高性能、高可用、高扩大的产品,激发数据背地的有限潜能。