关于数据挖掘:论存储在智算与超算平台建设中的重要性

25次阅读

共计 6130 个字符,预计需要花费 16 分钟才能阅读完成。

日前,科技部启动“人工智能驱动的科学研究”专项部署工作,将推动面向重大迷信问题的人工智能模型和算法翻新,放慢推动国家新一代人工智能公共算力凋谢翻新平台建设,反对高性能计算中心与智算核心异构交融倒退,激励绿色能源和低碳化,推动软硬件计算技术升级。

各个领域产业化正在经验粗浅改革,“数字化”、“智能化”正在成为社会倒退无效推动力,包含近来 AGI 畛域的 GPT-4,已成为世界各国发力的一个方向,如同互联网浪潮个别迅猛。

本篇文章基于上述背景,帮忙大家理解存储在智算和超算平台建设中的重要性。首先,咱们一起理解智算与超算平台各自钻研的方向及利用场景所笼罩的范畴,在此基础上,剖析两个平台数据在各维度的复杂度。进而更好的理解在智算 + 超算交融驱动模式下,该如何构建计算·存储·网络一体的 IT 基础设施。

智算和超算钻研方向及市场规模

智算核心 :全称是人工智能计算中心,是基于最新人工智能实践,采纳当先的人工智能计算架构,提供人工智能利用所需算力服务、数据服务和算法服务的公共算力新型基础设施,通过算力的生产、聚合、调度和开释,高效撑持数据凋谢共享、智能生态建设、产业翻新汇集,无力促成 AI 产业化、产业 AI 化及政府治理智能化。智算核心以多种异构形式独特倒退的 AI 服务器算力机组为算力底座,一直晋升智能计算能力和速度,满足人工智能利用场景下大规模、多线并行的计算需要,为各行业各畛域人工智能利用提供稳固的技术撑持,打造可继续倒退的算力生态。企业和钻研机构能够依靠智算核心提供的弱小算力,驱动 AI 模型进行数据深度加工,实现 AI 利用翻新。

随着人工智能技术的高速倒退,智能化正以前所未有的速度重塑各行各业,我国算力构造也随之一直演变,对智能算力的需要一劳永逸。5G、工业互联网、物联网、人工智能等信息技术减速倒退带动数据量爆炸式增长。《2022-2023 中国人工智能计算力倒退评估报告》数据显示,2021 年中国智能算力规模达 155.2 EFLOPS(FP16), 预计到 2026 年中国智能算力规模将达到 1,271.4 EFLOPS。2021-2026 年期间,预计中国智能算力规模年复合增长率达 52.3%,同期通用算力规模年复合增长率为 18.5%。一个智算核心能够同时撑持的产业场景很多,例如智能汽车、智慧医疗、智慧城市、智慧交通、智能制作等。

我国智能算力倒退状况

超级计算 :也称之为高性能计算(HPC,High Performance Computing),利用并行工作的多台计算机零碎的集中式计算资源,解决极其简单或数据密集型的问题。超级计算具备极强的计算能力,其浮点运算速度可能达到千万亿次每秒。超级计算作为国家科技倒退的重要制高点之一不仅是国家的科技实力的体现,更是国家高精尖技术倒退的重要保障。

在科技的赋能下,越来越多的企业服务场景将面临显著的高性能计算服务需要,超算服务将在社会经济、科技倒退的带动下,进入新的蓬勃发展期。预计 2025 年中国超算服务市场规模将达到 466 亿元,2021-2025 年复合增速无望达到 24%。高性能计算是撑持国防、生物、能源、自然科学等高科技行业倒退的松软底座。推动超算建设是打造我国算力底座的必经之路。随着算法获得冲破、数据量指数增长、诸多高科技畛域疾速倒退,社会对超算算力的需要一直晋升。

超算工作中往往随同着大量数据产生,剖析和使用这些数据就是各个领域应用超算的目标,超算通过剖析这些数据来理解试验后果。超算行业利用算力资源解决来自用户的海量数据,波及数据回收与剖析、数据模仿等多个环节。传统超算行业的服务场景围绕气象陆地、地质勘探、工业仿真、物理模仿等畛域,服务对象次要为高等院校、科研院所主导的科技工程项目等。

综上总结为,智算和超算作为计算畛域倒退的两个重要方向,两者互相补充,协同倒退。超算核心并重高性能计算,定位在国家大工程、大迷信的问题求解,专一于大规模科学计算。超算核心对晋升整体科研翻新实力和重大工程计算能力具备重要意义。智算核心并重人工智能的算法和模型翻新,定位于赋能千行百业,推动产业智能化,晋升生产效率和优化产业结构,将反对人工智能算法开发和大规模利用部署。

超算 / 智算平台数据各维度复杂度剖析

超算场景如气象预测、能源勘探、卫星遥感等,随着观测尺度和精度的晋升,数据量将越来越大;而很多新增的超算场景,基因测序等 80% 以上是 PB 级的数据密集型场景,局部业务单文件数量达到 TB 级别。更大的数据量、更多的数据类型,都须要超算存储能够提供更大的带宽、更高的 IOPS、反对超大算力的拜访能力。

  • 参加计算的数据量大幅增长

随着超算业务深入,超算数据量同步增长,诸如气象预报、能源勘探、GIS 等利用的精度带来了数据量的快速增长;参加计算的数据类型更加丰盛,结构化数据、非结构化数据指数级增长,如基因测序等场景均需间接应用影像数据进行运算。

  • 数据存储的并发反对

少数超算场景为多任务、多并发计算,一些作业对带宽要求很高,另一些对 IOPS 要求高,多任务并发造成存储资源抢占,导致整体计算效率升高。

  • 对可靠性有更高要求

超算作为重型计算资源,且单任务消耗工夫较长,若中断,须要从新计算,工夫和资源老本都比拟高,所以在设计超算基础设施时须要思考尽可能晋升整体超算零碎的可靠性。

智算核心次要是面向人工智能利用的数据中心,就目前比拟成熟的自动化驾驶和 AGI 两个利用来剖析,AI 模型须要大量数据来学习,智能水平越高,学习的无效数据量越大也越简单。不论是自动化驾驶或者是 AGI,其根本业务原理类似,其数据处理流程蕴含:数据采集、数据荡涤、数据标注、模型训练、仿真。不同业务 AI 算法模型不同,但业务流程根本一样,所以在智算畛域,整体架构设计围绕着算法和根底计算存储资源开展。

  • 数据规模级宏大,多以小文件为主

联合 AI 业务倒退,数据规模宏大,数据类型多是小文件,在 KB-MB 间居多,在生产过程中,随同着大量的 KB 级形容文件,总体规模在数十亿乃至百亿级规模。例如:目前比拟火的 GPT-4,作为语言 AI 模型,其应用的训练数据就是文字,文字在数据调配里是小文件类别。

  • 高速网络遍及

AI 集群大模型参数量和训练数据复杂性快速增长,对智算的算力提出了不同的要求,比方大规模 GPU 服务器 + 海量存储系统的建设,高速网络的应用,目前智算畛域曾经遍及 200Gb Infiniband、100Gb TCP RoCE 网络,并且随着网络技术的倒退,智算是启用新技术最早的行业。

  • 智算并发度高

智算具备规模效应劣势,计算规模越大,业务迭代提高越快,在建设条件容许的状况下,往往是大量计算同步进行,这也合乎智算平台架构原理(GPU),所以智算数据须要满足计算高并发拜访能力,并发规模从几百到几万不等。

  • 可靠性建设

因为智算曾经倒退为一个独自的大型业务领域,业务对于连续性要求曾经是企业级 SLA 领域,所以对整体零碎的可靠性提出了要求,成为建设规范之一。
在超算和智算利用中的数据具备很多共性,这些共性引领了数据存储技术将来的倒退方向,即要向着具备超算和智算数据业务方向。简略总结为以下几点:

  • 首先是数据量十分大,容量均在 TB-PB 区间;
  • 其次是运算对数据的带宽和 IOPS 以及延时性都有较高要求;
  • 在数据拜访架构上都面临着高并发状况;

智算 + 超算交融驱动模式

构建计算·存储·网络一体的 IT 基础设施

随着 AI、ChatGPT 等大模型场景的继续倒退,将来我国超算 / 智算核心的市场规模有很大幅度的晋升,尤其是智算核心作为构建智慧社会和数字经济的关键性公共算力基础设施,是算力供应模型精细化、算法智能化、场景普适化、能力基建化的范式翻新,通过升高算力老本为各类翻新企业和利用提供要害基础设施,构建计算、存储、网络为一体的 IT 基础设施整体计划,计算平台、共享存储平台以及网络系统要以均衡的形式协同工作,且互相性能必须达到高度匹配,能力很好地实现对实时、大规模、多样化数据进行高效的计算剖析。

计算零碎 :通过高性能 GPU 进行计算减速,模块化扩大,充分发挥计算外围的并行计算能力;

网络系统 :低提早、高带宽,最大限度地缩小网络数据传输过程的性能瓶颈;

存储系统 :对于大、小文件可能保持稳定的高性能,具备匹配计算规模的无缝横向扩大能力,满足 GPU 计算集群高并发的数据拜访需要;

当构建百亿级别的模型时,算力、网络、存储这三者独特决定了模型最终的成熟度和产品先进性。算力全面施展前提条件是网络和存储的能力要与算力放弃强统一,可提供高效的数据流转能力和存储供应能力。目前 IT 建设中高性能数据中心曾经实现高速网络的全面遍及,例如:200Gb InfiniBand 曾经成为智算核心和超算核心内计算 / 存储的首选网络技术,并开始向更先进的 400Gb 网络技术迭代,这就意味着存储系统就成为决定业务倒退快慢的关键因素。

YRCloudFile 是焱融科技自研的高性能分布式文件存储系统,首先它采纳全分布式架构,可扩大元数据能力和负载平衡能力使得存储集群能够同步横向扩大容量和性能,YRCloudFile 繁多文件系统反对 EB 级数据量及百亿级文件数量。其次,YRCloudFile 反对 NFS/SMB 协定,通过通用 NAS 文件共享服务反对 Linux 和 Windows 公有客户端,针对高性能存储需要场景提供卓越的性能体现。在智算超算平台下为了充沛匹配大规模 GPU 并发数据处理需要,焱融科技基于产品先天劣势趁势推出焱融全闪分布式存储一体机 F8000X,搭载新一代 64 位计算平台和焱融高性能分布式文件存储系统 YRCloudFile,采纳全 NVMe SSD、InfiniBand 等高速网络,反对 RDMA、多网卡聚合技术,以极致性能充沛开释计算后劲。近日,YRCloudFile 率先反对 NVIDIA GPUDirect Storage(GDS)性能,实现以间接内存的存取形式将数据传输至 GPU,显著升高 I/O 提早,晋升数据带宽,充沛开释 GPU 算力,将性能施展到极致,帮忙用户应答智算 AI 时代高性能场景下的数据问题。

焱融全闪分布式存储一体机 F8000X 性能实测数据

在云、大数据、人工智能等新技术驱动交融下,全行业新利用数据也呈现出爆发式增长趋势,为了满足不同场景存储需要,YRCloudFile 灵便对接多数据平台,在 AI/HPC 数据平台,通过在计算集群节点上部署焱融 YRCloudFile 高性能公有客户端,实现多级智能缓存、数据预读性能,显著晋升性能;反对 CSI 对接 Kubernetes 集群,提供高效、牢靠的容器长久化存储服务,同时反对多种容器个性,使得容器平台应用、监控、治理存储资源变得更加的灵便高效;实现对 HDFS 接口协议齐全兼容,使 Hadoop 生态中的各种利用都能够在不扭转代码的状况下,平滑地应用 YRCloudFile 存储并拜访数据,实现更加贴合业务利用的存算拆散架构,解耦资源。

针对异构存储并存的利用场景,YRCloudFile 独有的数据智能加载和分层性能,灵便高效地驱动数据在不同存储平台流动,不便用户组织数据集进行计算剖析,实现全数据生命周期治理,买通云上云下数据通路。应用焱融全闪分布式存储一体机 F8000X 将数据依照生命周期管理策略分层到本地低速存储或者云端,对业务端提供对立命名空间,升高应用复杂度,晋升了数据存储应用的经济性。焱融科技针对大规模 GPU 集群高性能存储解决方案总结下来为:

  • 撑持数千台节点的高并发拜访;
  • 保障模型训练中存储的高 IOPS、高带宽、低延时的拜访能力,为 GPU 服务器提供足够高的存储数据传输带宽,充沛开释 GPU 算力;
  • 撑持百亿级别的文件的读写性能和元数据操作性能,满足大量特色文件或聚合后的文件的存储需要且存储性能须要保障稳定性;
  • 为下层训练模型利用提供标准文件接口用于数据拜访,并为容器化的训练任务提供灵便的数据拜访能力;
  • 在模型运算中,存储不仅须要高 IOPS,还需兼容高性能网络,反对高速 RDMA 传输协定的 InfiniBand 网络,实现高 IOPS、低提早和稳固的数据拜访性能。

焱融文件存储在大规模 GPU 集群利用实际

焱融高性能分布式文件存储 YRCloudFile 具备超算和智算数据存储所要求的共性条件,在实践中针对超算的大文件和智算的小文件场景深刻优化和开发,焱融全闪分布式存储一体机 F8000X 匹配 200Gb Infiniband 网络和 100Gb TCP RoCE 网络,可提供百亿级文件解决能力和高性能的元数据处理能力,在泛滥超算和智算我的项目中匹配高性能 GPU 计算节点实现超算和智算高性能平台的建设,焱融高性能文件存储率先反对 400Gbps InfiniBand 网络,也是国内首家反对 GPUDirect Storage® 分布式文件存储产品,性能成为业界翘楚,是国内超算核心和智算核心建设的现实存储。目前,焱融全闪文件存储已在 AGI(通用人工智能)、智能汽车、智能制作、智能医疗、教科研等行业的数据中心落地利用。

👇 点击题目即刻看到残缺解决方案

智谱 AI 联结焱融打造 A100+ 全闪存储的大规模 AI 架构

焱融全闪文件存储一体机 F8000X 立足多模态 AI 场景,适配百亿级数据规模,向计算集群提供高性能低时延的存储服务能力。在撑持海量数据存储的同时,YRCloudFile F8000X 集群中单节点可提供 200 万 IOPS 和 40GBps 带宽,反对 RDMA 协定,实现存储高性能撑持,使 IaaS 层全面晋升性能,为 AI 业务夯实根底能力。

大容量、高性能,国家级实验室分布式并行文件存储实际

焱融科技提供的一站式分布式并行文件存储,满足数据平台全方位需要。为实验室搭建大规模高速并行可扩大存储的数据平台,打造了一套高性能、高可用、高扩展性的 IT 存储基础设施,无效实现数字孪生建模、仿真、交互、在线服务等技术冲破,并撑持示范利用、智能人机交互关键技术的冲破,为实验室技术疾速落地提供了要害撑持。

焱融科技助力海尔集团上云 减速“智能制作”过程

在业务全球化过程中,云计算产业平台以整个制作产业为依靠,并结合物联网和人工智能,通过产业智能化合作的平台化,减速制作产业的智能降级。焱融科技作为国内惟一可能在各种云环境下提供高性能存储的解决方案的厂商,通过分层技术实现对立命名空间数据流动管控,解放业务和运维压力,满足云端服务 SLA 服务质量要求,为用户提供在存储及性能侧欠缺存储服务能力。

焱融全闪存储实现与美的团体破千万 IOPS 性能

焱融 F8000X 全闪分布式文件存储系统为美的团体构建的 AI 计算共享存储平台,将计算、网络、存储三个外围能力达成完满匹配,最大化晋升整体平台算力输入,以满足客户业务需要和整体 AI 训练效率的晋升,更好地撑持算法工程师开发和训练人工智能模型。解决用户在 AI 计算场景对存储的极高 IOPS 和带宽、极低延时需要,撑持整个翻新核心的算法工程师的人工智能模型的开发和训练。

焱融科技在智算大规模 GPU 场景有着多行业的落地实际并经验了一直的技术迭代,积攒了大量超算和智算 IaaS 建设教训,能够提供全面的超算和智算的 IaaS 一体化解决方案。同时,助力计算效率晋升和单位算力能耗升高,构筑 AI 算力时代数据中心的低碳建设。反对高性能计算中心与智算核心异构交融倒退,激励绿色能源和低碳化,推动软硬件计算技术升级,焱融存储始终在不断创新。

正文完
 0