关于算法:大容量高性能国家级实验室分布式并行文件存储实践

52次阅读

共计 2213 个字符,预计需要花费 6 分钟才能阅读完成。

近年来,北京、上海和粤港澳大湾区科创核心、综合性国家迷信核心建设热火朝天,国内曾经呈现一批科技翻新当先,无力撑持国家技术倒退的新型科研机构。在人工智能、信息网络、生物技术等战略性产业中,新型科研机构须要借助具备创新性、引领性的基础设施,一直摸索未知领域,为颠覆技术创新而致力。

作为国家级的网络通信畛域新型科研机构(以下简称:实验室),实验室聚焦宽带通信和新型网络等重要策略工作,以网络通信、网络空间和网络智能为次要钻研方向,发展畛域内战略性、前瞻性、基础性重大迷信问题和要害核心技术钻研。

在倒退过程中,该实验室抉择引入前沿的分布式并行文件存储技术,搭建起超大容量的存储集群,撑持其在智能交通、计算机视觉、自然语言、主动驾驶、智慧医疗等方面的试验钻研训练数据。

打造双轮驱动模式,建设高性能存储支柱

该实验室保持以重大工作攻关和重大科技基础设施与平台建设为牵引,以科技翻新和体制机制翻新为主线,深刻摸索在社会主义市场经济条件下,要害核心技术攻关新型举国体制,建成了若干重大科技基础设施与平台,公布了多语言机器翻译平台,以及中文预训练语言模型等一系列重大利用。

为了进一步打造“重点项目 + 根底钻研”的双轮驱动特色科研模式,该实验室需建设一个能全方位撑持钻研训练的存储平台,满足实验室在技术钻研过程中的数据训练需要。在建造新型数据中心的过程中,性能、可扩大能力、安全性等是重点思考的因素:

  • 性能方面,在每次 AI 训练过程中,须要拜访数 TB 左右的数据,这部分数据须要被几百个计算节点同时拜访,导致其对存储吞吐量和数据加速度的要求极高。因而新建设的 IT 基础设施必须满足性能高、存储空间大的特点;
  • 可扩大能力方面,在以后的效力计算体系中,该实验室须要搭建 64PB 的高速并行可扩大存储,次要面向于国家重大策略我的项目中的智能训练,其中蕴含着不少图片、视频、语音等非结构化数据。然而传统存储体系,无论是 DAS(直连存储设备),还是 NAS 矩阵,不仅很难撑持海量的数据存储需要,更是难以跟上数据激增的步调,存储平台的可扩展性也非常重要;
  • 安全性方面,工信部在一直建立健全行业数据安全保障体系,实验室在建设存储平台过程中也要时刻关注数据安全性问题,在摸索新技术钻研利用过程中,也要实现平安防护技术的智能化和自主可控。

一站式分布式并行文件存储,满足数据平台全方位需要

焱融科技在服务过的大量客户实际案例中,遇到过不少相似的状况,不仅领有丰盛的计划教训,而且外围产品 YRCloudFile 也在类似案例中稳固运行多年。通过屡次测试和考查,该实验室最终抉择与焱融科技达成此次单干,独特建设高性能的国家级数据平台。

在这样的背景下,该实验室抉择部署超过 1800 块磁盘存储集群,为我的项目提供了靠近 30PB 的高速并行文件存储空间,同时配合 200Gb 的超高宽带网络和磁盘的混合搭配,完满实现存储集群从 0-1 的搭建,不仅满足了超大容量的需要,而且也能实现在数据量突发增长时,疾速扩容,不影响训练状况。

通过焱融科技提供的存储计划,该实验室搭建起大规模高速并行可扩大存储的数据平台,满足了根底钻研须要的同时,有了更多的播种:

  • 算力跃迁:相较于常见的分布式存储和传统存储,其在面向人工智能的小文件场景和高性能计算并发时,存储性能和并发性能都有肯定水平的限度,难以达到最优成果。焱融科技自主研发的数据传输协定基于 RDMA 技术的 InfiniBand 网络,实现了超过 400GB/s 的数据吞吐带宽,且超高带宽的实现也为平台性能再次加码,造成点对点的传输方式,让数据传输效率晋升近 60%,减速计算周期。
  • 数据保密性极强:数据寄存采纳了焱融科技并发分布式文件存储,让数据以切片的模式存在不同的存储节点上,同时实现多节点备份。让居心叵测的人即便从存储节点上拿走了磁盘,也无奈读取到残缺的数据。大大晋升了数据的安全性,让数据能够失去永恒的存储,从基本解决了数据安全问题。
  • 老本和性能极致均衡:在 AI 训练过程中,YRCloudFile 文件存储系统的智能分层性能能够依据用户须要,自定义冷热数据策略,冷数据主动流动至低成本的对象存储并实现压缩,向上依然为业务提供规范的文件拜访接口,并放弃目录构造不变,数据在冷热数据层之间流动对业务齐全通明,能无效地对老本和性能做好均衡。
  • 易用性极高:YRCloudFile 所具备的全对称、可扩大的元数据集群架构,反对实验室在面对数十亿文件时,对元数据的操作性能以及读写性能继续保持稳定。同时,YRCloudFile 曾经完满兼容适配以后国内外多个 Kubernetes 发行版,包含但不限于 Rancher、灵雀云、浪潮云、博云、谐云等。

YRCloudFile 铸基国家级实验室基础设施建设

实验室采纳焱融科技 YRCloudFile 提供的解决方案,打造了一套高性能、高可用、高扩展性的 IT 存储基础设施,无效实现数字孪生建模、仿真、交互、在线服务等技术冲破,并撑持示范利用、智能人机交互关键技术的冲破,为实验室技术疾速落地提供了要害撑持。

数据平台作为数据的核心、计算的核心、网络的核心,撑持着信息技术的减速翻新。同时,数据平台作为互联网和各行业数字化的技术实体,利用于生产生存的多个环节,撑持技术创新疾速倒退。焱融科技作为一家高性能文件存储和容器存储的领导者,长期致力于为各大企业日益增长的海量数据提供优质的存储、治理和应用服务。将来,焱融科技将继续为更多创新型科研机构提供强力存储撑持。

正文完
 0