简介:北坡模式:借助于云上大计算性能冲破来提供 HPC 服务,切入的重点更加聚焦于云服务。
随着数字化转型的深刻,行业利用对算力提出更高要求。为满足不同行业灵便的业务状态与计算需要,以云计算技术为服务模式翻新的技术手段,以高性能计算服务为外围的高性能计算云(HPC Cloud)受到业界的宽泛关注。
为了进一步凝聚产业共识,推动高性能计算云产业倒退,2021 年 12 月 21 日,计算网交融产业及规范推动委员会联结超级计算翻新联盟,召开首届高性能计算云(HPC Cloud)产业倒退论坛,邀请了学术界与产业界专家,以“云化超算,智启将来”为主题,从技术钻研、利用部署、实际倒退等多个方面进行精彩演讲。
在本次论坛上,来自阿里云的高性能计算负责人何万青发表了《南坡 VS 北坡,阿里云高性能计算 HPC-as-a-Service 行业实际》的主题演讲。
01 阿里云高性能计算的倒退
超算通过互联网的形式去部署和交付曾经成为趋势。何万青示意阿里云的高性能计算曾经倒退了四到五年,目前部署在很多工业和行业计算的相干垂直业务,比方汽车仿真、影视前期渲染、AI 生物制药、气象业务等畛域。
基于过来十多年在线下 HPC 的技术察看,谈到传统超算零碎转型高性能计算云的趋势,何万青将线下超算转型云服务和云服务提供高性能计算产品和服务两种模式,比喻为从南坡和北坡不同线路攀登 HPC-as-a-Service 高峰。在北坡,云公司借助于云上大计算性能冲破来提供 HPC 服务,切入的重点更加聚焦于云服务:单机 SLA 和大规模稳定性、快捷、弹性、多种云产品和服务的疾速组合及 SaaS 服务,超过以提供“核时”和“算力”为外围的模式,强调整体科研业务上云。
2020 年是高性能计算在稳定性、弹性以及计费敏感性方向倒退最快的一年,很多重大工作在阿里云曾经能够大规模的部署,阿里云在去 IOE 的过程中,能够使超 70% 硬件故障无感打消,在公共云大计算产品端,云超算 SCC 第七代实例规格全新上线。
在神龙计算平台上,它的劣势包含虚拟化网络高效卸载,物理网络、存储和计算齐全解耦,防止资源争抢。神龙 eRDMA 性能 2021 年也正式上线,实现 CPU 实例和 GPU 实例并池和混合部署,极大扩大 CPU 和 GPU 实例集群范畴。从 POD 扩大到可用区、数据中心,平台反对更大规模的弹性伸缩,同时反对 VPC 网络、eRDMA 网络、存储网络三网合一。在数值天气预报中,eRDMA 会极大晋升利用规模和并行效率。
02 阿里云高性能计算 Cloud Stack
何万青示意,基于以上的底层架构,阿里云高性能计算统称为“神龙云超算”,在其上部署面向公共云和混合云的 E -HPC 云软件栈,它是基于神龙服务器 +RDMA 网络 + 并行文件系统开发的 PssS 层服务。其中,调度器和弹性伸缩、热迁徙等功能够从底层对客户通明实现。在 ISV 层,服务是通过工作流的形式提供,数据搬移不仅是物理形式,而是通过高速网络,一次性的上载来实现工作交付。在跨数据中心的计算集群上,实现三网合一,现有调度器齐全实现对跨可用区计算节点的调度,将不同的任务分配给不同的实例。在不同的队列调度上方面,寰球只有阿里云可能在运行过程中实现队列绑定不同的实例。
03 阿里云高性能计算利用计划
何万青介绍了将抢占式实例与断点续算联合,用户只须要破费比传统形式很少的老本,便能够按需失去所需资源。在混合云技术方面,通过混合云异步文件存储的形式,能够实现在线上、线下同时进行数据拉取与计算,在影视渲染场景中,曾经失去宽泛应用。
E-HPC 商业 License 计划中,可通过阿里云高速通道买通云上云下网络。其中,E-HPC 主动部署云上计算资源,并为其配置好 License 服务或 License 代理节点,云下 License 服务器通过 VPN 连贯 License 代理节点,E-HPC 服务负责 License Manager 部署、License 发放和应用监控。
原文链接
本文为阿里云原创内容,未经容许不得转载。