关于云计算:从-015-套存储集群YRCloudFile-助力-AI-训练效率超线性增长

如果从 1965 年的达特矛斯会议开始算起，AI 曾经走过了 65 年的历程。近些年，随着深度学习衰亡，AI 也获取了越来越多的关注。目前，AI 技术都是以深度学习为根底，而深度学习想要实现简单的学习过程须要实现两个过程：

大量的数据训练，深度学习极度依赖数据挖掘技术，耗费产生大量、无效的训练数据；
优化算法，深度学习须要通过简单的神经网络找到最好的模型，用于剖析新的数据。

数据处理阶段构造

故而深度学习对数据要求比一般模型的要求都要高。只有在大量数据的反对下，能力真正施展深度学习的作用。然而，大数据比设想中都要简单，训练数据的难度比传统机器学习的难度要大。而在整个数据处理过程中，不同阶段所应用的技术，以及这些技术对数据拜访的要求都有差异。

数据在各阶段拜访的特点

作为一家专一以软件定义存储技术的企业，焱融科技自 YRCloudFile 公布以来，长期关注存储技术在 AI 畛域方面的利用，也亲历了近年数据存储在 AI 畛域的落地过程。本篇文章，焱融科技将试图通过国内某家在语音及语言、自然语言了解、机器学习推理及自主学习等畛域放弃着国内前沿技术程度的 AI 畛域企业的理论案例，率领大家理解以后数据存储在 AI 畛域的技术倒退现状，以及摸索 AI 将来的倒退状况。

海量数据亟需解决的“硬骨头”

目前，国内某 AI 畛域企业的基础架构团队，须要为各个人工智能团队及业务部门提供稳固、高性能的训练存储平台，同时治理近千台高性能 GPU 服务器，如果训练应用存储平台性能滞后，将间接影响业务部门的训练效率。因而，数据处理流程是整个环节的重中之重，也是焱融科技本次优化训练平台的切入点。

为了满足该公司的人工智能业务部门训练的须要，其利用的模型训练数据平台必须具备以下个性：

具备高带宽、低延时的读写个性，保障为 GPU 服务器提供足够的数据输出，实现 GPU 的高效应用；
反对百亿级别的小文件及局部大文件混合的读写场景，满足大量特色文件或聚合后的文件存储需要；
下层训练模型应用标准文件接口拜访数据；
能反对近千个高性能计算节点的并发拜访；
满足多种计算集群模式存储服务，包含固有的裸金属计算架构、云计算架构、容器化计算架构的长久化存储等需要；
满足综合监控数据治理平台对接需要，实现数据管理、监控、运维一体化展示和简洁化治理能力；
实现相干业务特色具体优化策略，依据不同业务类型特色具备可调节优化能力。

YRCloudFile 做对了什么？

在理解该公司的需要当前，焱融开始从 2019 年开始，就技术利用计划和落地措施进行了屡次的交换和理论场景测试。同时，该公司的技术团队对训练应用的存储平台选型非常重视，其中数据平台的理论性能尤为要害，包含：

大文件的随机读写、小文件的读写性能；
海量元数据的操作性能（creation, stat, removal 等）；
海量文件的反对，以及在海量文件的背景下，数据拜访和操作性能是否保持一致；
存储平台的稳定性；
在故障场景中，尤其是在元数据服务故障场景下，集群性能的稳定性；
与容器平台的对接能力；
数据生命周期的治理。

这些严格的评估规范，是基于理论业务诉求、公司基础架构团队要求和多年的理论工作积攒中提炼进去的，满足了行业广泛标准化和公司业务个性的需要。

作为国内首批实现容器长久化存储的厂商，YRCloudFile 不仅在架构上，实现了齐全与硬件解耦；而且在通用的服务器上，YRCloudFile 同样能够充分发挥出本身在高速存储介质和网络存储性能方面的充沛劣势。

同时，为了配合施展计算集群的弱小算力，YRCloudFile 兼容全栈式网络技术和设施，实现了从数据终点到起点，从存储到计算再回到存储的全 IO 门路高性能的根底搭建，不仅保障高性能输入，而且做到了业务可靠性和连续性。

相较于其余存储产品，YRCloudFile 还具备性能当先、元数据拜访性能突出、容器平台稳固对接的劣势和特点。目前，YRCloudFile 凭借多年的技术教训，实现了基于 CSI 接口的标准化服务，在数据流转和治理层面具备成熟的性能及服务。在此基础上，为了进一步满足数据生命周期治理的须要，YRCloudFile 实现了高性能并行文件存储到对象存储的自动化治理，以及数据载体老本的最优化配比。另外，在 IO 治理方面，YRCloudFile 实现在同一命名空间内，极大地解放 IT 治理资源，开释治理压力，晋升生产力，达到降本增效，升高客户 TCO 指标的要求。

通过三年工夫的单干，YRCloudFile 通过了该出名 AI 畛域企业的多个新业务上线，以及业务零碎的迁徙的考验。目前，YRCloudFile 曾经成为该公司重要的业务存储平台，并且扩容速度正以 300% 每年的速度晋升。单方单干的背地，不仅突显出 YRCloudFile 对于产品技术坚持不懈的谋求，而且也表明了该公司对 YRCloudFile 的信赖。

更高效：外围业务存储规模近 40 PB，单集群峰值带宽达 30+ GB/s

随着单方的单干逐渐深刻，YRCloudFile 得以疾速利用在该出名 AI 企业中，其中包含多个外围业务的大规模深度学习训练集群生产环境。凭借 YRCloudFile 弱小的性能劣势、稳固的产品品质、灵便的存储部署架构、优良的产品治理能力以及全方位的售后服务，自第一个 YRCloudFile 集群上线开始，至今已实现数个集群陆续部署，数据快速增长。

至今为止，该公司的外围业务存储规模已达到近 40PB，寄存超百亿用于训练的音频、视频、图片文件，单集群峰值带宽达 30+GB/s，YRCloudFile 曾经成为撑持其多项业务的外围存储平台。

训练集群容量快速增长

在 YRCloudFile 的反对下，该出名 AI 公司的训练平台服务实现外部人工智能研究院近千台高性能计算服务器稳固运行，大量科学家和算法工程师通过这些数据对模型进行继续优化，实现该公司各类语音服务的产品输入，以及其余相干 AI 训练项目。

在单干过程中，焱融科技与该公司的基础架构团队持续保持亲密的交换，通过数据 IO 模型特点的剖析，焱融科技研发团队基于该公司的数据特点，继续对 YRCloudFile 进行产品层面的深度优化。目前，曾经造成了 YRCloudFile 部署 → IO 特点剖析 → 读写优化 → 更新上线的残缺闭环。

通过该出名 AI 公司的大规模应用，YRCloudFile 得以疾速积攒更多在服务人工智能企业外部，高性能存储场景的教训和能力，实现产品进一步加强，也奠定了焱融科技在 AI 畛域成为业余服务于泛 HPC 的业余存储厂商。

更弱小：从 0-15 套存储集群，年增长率超 300%

回顾单方单干历程，正是一个存储与利用缓缓交融的过程。

从泛类存储到聚焦 AI 业余畛域存储，从狭义层面的存储（存储数据）到更加理解业务的存储。其中更多的是，单方技术团队严密沟通和技术跟进的后果，亦是存储向利用细分畛域倒退的缩影。

从技术验证到第一个 YRCloudFile 存储训练平台的建设，实现了从 0 到 1 的过程。目前，该出名 AI 公司曾经部署了 15 套 YRCloudFile 存储集群，实现了近 40PB 规模的外围训练平台搭建，总存储节点数超 200+，服务于多项外围业务，年增长率超 300% 的数据量扩大，将来可期。

在整个过程中，YRCloudFile 曾经为该公司的训练集群提供了大规模的高性能数据服务。将来，YRCloudFile 将继续为 AI 场景提供更多、更弱小的性能反对：

弱小的云原生存储能力。YRCloudFile 反对容器跨节点重建、PVC Quota、PVC扩容、PVC QoS、热点剖析等个性，帮忙其在云原生服务能力进一步增长的状况下，实现更多新业务以云原生的形式部署，实现麻利开发能力和 AI 疾速迭代。
高性能、高可靠性、残缺的界面治理和向上对接能力。目前，YRCloudFile 在可靠性保障根底上，提供了节点级抗灾能力，并在容器对接层通过跨节点重建，满足故障后疾速复原利用的要求。另外，YRCloudFile 在混合文件优化上，采纳了并行数据管理能力，将元数据和实体数据拆散模式，在保障海量文件的高速拜访和扩大能力的同时，实现了依据不同数据特色调节元数据性能的微调能力，并基于此弱小的产品个性，在存储集群的扩大治理和面对业务优化上具备微小的劣势。
更理解业务。YRCloudFile 通过长期的生产工夫，使得其更加理解公司业务，开释了更加贴合业务场景需要的 SDK，实现更加粗疏的文件共享服务，比方提供更加粗疏的权限治理，满足对接业务权限平台、资源平衡能力、业务感知能力、数据治理需要对接能力的要求等。
最大化实现高性能拜访，保障业务高效迭代。在数据生命周期的治理中，YRCloudFile 通过训练热数据可实现三层架构，实现最大化高性能拜访，在保障业务高效迭代的同时，YRCloudFile 还能够通过存储集群自身的两层数据流转模式，实现热数据前置，将训练数据贴近计算，使依赖高性能网络的分布式存储更进一步。除此之外，YRCloudFile 还能够将热数据层与计算总线间接买通，从而取得更高的 IOPS 和更低的时延，且热数据全程在 YRCloudFile 对立命名空间治理，解脱计算零碎低效的置换策略，使其晋升了 YRCloudFile 在智能置换和预读方面的能力，在原有 YRCloudFile 存储性能的根底上，再晋升 5 倍左右的性能。
无缝对接对象存储。针对热数据归档冷数据管理的问题，焱融开发了对象治理性能，实现无缝对接对象存储。再通过 YRCloudFile 命名空间对立治理的形式，达到策略式归档的目标。而在下层利用则体现为通明治理，满足细粒度调取的需要，最大化地帮忙用户升高存储支出费用。同时，搭配焱融私有云产品云舟服务可造成混合云存储管理模式，实现轻松多地、多站点部署模式，极大地扩大了客户业务群，丰盛了 IT 管理手段。

YRCloudFile 高性能分布式文件存储架构图

更有价值：全生命周期治理业务数据，极大晋升数据训练效率和精准度

正如咱们所介绍的那样，海量数据和弱小算力是深度学习施展重大作用的两大要害因素。YRCloudFile 作为泛滥 AI 畛域相干企业在深度学习集群中，应用的高性能文件系统，在提供人工智能基础架构的外围存储服务的同时，也逐渐体现出越来越大的商业价值：

反对更加丰盛的业务计算模式，其中包含高性能HPC集群、云计算集群、容器计算集群，可能满足多项业务独特发展；
高牢靠业务撑持，在保障业务可能依照预期顺利交付的同时，晋升IT基础设施安全性，无效晋升整体业务水平；
全生命周期治理业务数据，实现热数据层更加高效的拜访，冷数据管理更加智能，无效升高 IT 的 TCO。
训练工夫大幅缩短，绝对于其它的商业存储，YRCloudFile 所具备的高带宽、低延时的个性，更能满足 GPU 等计算服务器的计算效率达到饱和的需要，使得单次训练工夫由一周缩短至数小时。
训练精度晋升，在深度学习过程中，算法工程师须要通过一直调整训练模型，能力晋升模型精准度，故而缩短单次训练工夫，晋升迭代频次的要害。借助 YRCloudFile，算法工程师能够通过调整深度学习中的参数，一直优化深度学习的老本函数（Cost Function），使模型迭代频次进步、训练精准度晋升成为可能。
帮助客户实现数据治理工作，YRCloudFile 向上提供更加丰盛的数据管理接口，能够帮忙企业集中管理平台的搭建和运维治理，晋升运维效率，解放生产力。

将来十年，AI 时代降临

目前，国内泛滥一线厂商旷视科技、依图科技、商汤科技、云从科技，以及正在衰亡的小马智行、元戎启行、图森将来、西井科技等企业，均是以 AI 为外围竞争力，而 AI 外围竞争又是算法和数据的竞争，万法归宗，AI 洼地的建设将成为企业竞争力的体现。

基于该出名 AI 企业的业务实际，咱们能够发现无论 AI 利用于何种场景、何种业务，其重点仍然是外围算法和训练数据量，算法的迭代又须要海量数据作为根底撑持，因而高性能计算和高性能存储未然成为撑持整体 AI 行业倒退的基石。

纵观半个世纪的 AI 实际，从概念提出到实践实际，从图形到语音，从卷积神经网络到归类深度学习，无一不是数据由少到多，算法由简入繁的过程，现在有 GPU 的加持，算力曾经不是瓶颈，恰好作为数据的母体——存储正亟待改良，所以整个存储行业会持续向细分畛域倒退，更加贴近利用，更加了解利用能力更好的服务于 AI 行业，这曾经成为 AI 行业趋势。

最近，“元宇宙”一词大热，其背地更值得注意的是根底技术——AI。从元宇宙自身来看，它试图通过将事实世界进行虚构复刻的形式，打造将来网络商业的次要载体。或者，它也能够被看作是多维度、立体化的去中心化互联网世界。然而，无论元宇宙最终将以何种产品服务模式呈现，实现与人交互，以及依据自我判断、情景判断做出正确反馈的性能，它都将由一个个正确的 AI 动作和海量数据作为撑持。

过来十年，咱们处于互联网时代；现在，随着 5G 商用的减速落地，虚拟现实成为了新一轮科技反动的代表性技术，AI 作为将来最重要的基础设施之一，也将为将来元宇宙构建带来有限可能。

存储系统作为撑持 AI 将来倒退的基础设施软件之一，始终处于一直变动和变革的环境中。从晚期的物理机时代，到虚拟化技术的成熟，到当初各大厂商大规模部署的云环境，其中都少不了存储系统的反对。

焱融科技自成立以来，多年来深耕 AI 畛域，在行业内积攒了泛滥我的项目及实践经验，帮忙泛滥语音辨认、视觉辨认、主动驾驶等 AI 企业晋升训练效率，凭借高性能、高灵活性、高可用、高扩大等个性，实现更好地反对企业的云原生利用、自动化治理和业务翻新，满足用户在任何工夫、任何地点对任何利用的响应需要。将来，焱融科技将继续关注 AI 畛域对存储的需要，通过高牢靠、高可用、高灵便的存储系统，帮忙 AI 技术开释更大的后劲。

关于云计算:从-015-套存储集群YRCloudFile-助力-AI-训练效率超线性增长

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于云计算:从-015-套存储集群YRCloudFile-助力-AI-训练效率超线性增长

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复