简介:北坡模式:借助于云上大计算性能冲破来提供HPC服务,切入的重点更加聚焦于云服务。

随着数字化转型的深刻,行业利用对算力提出更高要求。为满足不同行业灵便的业务状态与计算需要,以云计算技术为服务模式翻新的技术手段,以高性能计算服务为外围的高性能计算云(HPC Cloud)受到业界的宽泛关注。

为了进一步凝聚产业共识,推动高性能计算云产业倒退,2021年12月21日,计算网交融产业及规范推动委员会联结超级计算翻新联盟,召开首届高性能计算云(HPC Cloud)产业倒退论坛,邀请了学术界与产业界专家,以 “云化超算,智启将来”为主题,从技术钻研、利用部署、实际倒退等多个方面进行精彩演讲。

在本次论坛上,来自阿里云的高性能计算负责人何万青发表了《南坡VS北坡,阿里云高性能计算HPC-as-a-Service行业实际》的主题演讲。

01 阿里云高性能计算的倒退

超算通过互联网的形式去部署和交付曾经成为趋势。何万青示意阿里云的高性能计算曾经倒退了四到五年,目前部署在很多工业和行业计算的相干垂直业务,比方汽车仿真、影视前期渲染、AI生物制药、气象业务等畛域。

基于过来十多年在线下HPC的技术察看,谈到传统超算零碎转型高性能计算云的趋势,何万青将线下超算转型云服务和云服务提供高性能计算产品和服务两种模式,比喻为从南坡和北坡不同线路攀登HPC-as-a-Service高峰。在北坡,云公司借助于云上大计算性能冲破来提供HPC服务,切入的重点更加聚焦于云服务:单机SLA和大规模稳定性、快捷、弹性、多种云产品和服务的疾速组合及SaaS服务,超过以提供“核时”和“算力”为外围的模式,强调整体科研业务上云。

2020年是高性能计算在稳定性、弹性以及计费敏感性方向倒退最快的一年,很多重大工作在阿里云曾经能够大规模的部署,阿里云在去IOE的过程中,能够使超70%硬件故障无感打消,在公共云大计算产品端,云超算SCC第七代实例规格全新上线。

在神龙计算平台上,它的劣势包含虚拟化网络高效卸载,物理网络、存储和计算齐全解耦,防止资源争抢。神龙eRDMA性能2021年也正式上线,实现CPU实例和GPU实例并池和混合部署,极大扩大CPU和GPU实例集群范畴。从POD扩大到可用区、数据中心,平台反对更大规模的弹性伸缩,同时反对VPC网络、eRDMA网络、存储网络三网合一。在数值天气预报中,eRDMA会极大晋升利用规模和并行效率。

02 阿里云高性能计算Cloud Stack

何万青示意,基于以上的底层架构,阿里云高性能计算统称为“神龙云超算”,在其上部署面向公共云和混合云的E-HPC云软件栈,它是基于神龙服务器+RDMA网络+并行文件系统开发的PssS层服务。其中,调度器和弹性伸缩、热迁徙等功能够从底层对客户通明实现。在ISV层,服务是通过工作流的形式提供,数据搬移不仅是物理形式,而是通过高速网络,一次性的上载来实现工作交付。在跨数据中心的计算集群上,实现三网合一,现有调度器齐全实现对跨可用区计算节点的调度,将不同的任务分配给不同的实例。在不同的队列调度上方面,寰球只有阿里云可能在运行过程中实现队列绑定不同的实例。

03阿里云高性能计算利用计划

何万青介绍了将抢占式实例与断点续算联合,用户只须要破费比传统形式很少的老本,便能够按需失去所需资源。在混合云技术方面,通过混合云异步文件存储的形式,能够实现在线上、线下同时进行数据拉取与计算,在影视渲染场景中,曾经失去宽泛应用。

E-HPC商业License计划中,可通过阿里云高速通道买通云上云下网络。其中,E-HPC主动部署云上计算资源,并为其配置好License服务或License代理节点,云下License服务器通过VPN连贯License代理节点,E-HPC服务负责License Manager部署、License发放和应用监控。

原文链接
本文为阿里云原创内容,未经容许不得转载。