乐趣区

关于云计算:剑桥大学为超级计算机装上第三个大脑云原生技术正式吞噬超算领域

超级计算作为“大计算”畛域的另一大分支,个别会被用来与云计算进行优劣势类比。但超算与云计算也存在很多不同,比方 HPC(High Performance Computing,HPC)简直不必虚拟化技术,因为一个利用就可能把多个机器的 CPU 都跑满了,虚拟化技术仿佛没有用武之地。

但随着云计算技术的倒退,逐步呈现了云超算的概念。这是一种新型的高性能计算形式,基于云平台技术底座,深度交融高性能计算、边缘计算、人工智能等最新技术,提供对立的算力平台,共享的资源池和高性能的算力,能够解决传统 HPC 在应用过程中易遇扩展性不佳、遭逢性能瓶颈、治理保护难等理论问题。

但随着云计算进入“云原生”阶段,云原生也逐步成为云超算架构中重要组成部分,“Cloud Native is eating the world”,已不再是业内人士的口号,而是大势所趋。

剑桥大学:打造造福全人类的世界级云原生超级计算机

近日媒体曝出,剑桥大学正在打造寰球第一台 TOP500 科研云原生超级计算机 —— CSD3(Cambridge Service for Data Driven Discovery),这也是全球性能最弱小的科研超级计算机之一。

这台超级计算机取得了由 STFC DiRAC、STFC IRIS、EPSRC、MRC 和 UKAEA 反对的英国钻研与翻新核心 (UKRI) 赞助,并委托剑桥大学进行治理。

剑桥大学除了是寰球出名的高等学府,同时也是英国最大的科研云基地,目前正在扩容一个算力达 4 PFlops 的全新 Dell-EMC 零碎,该零碎采纳 NVIDIA A100 GPU,NVIDIA BlueField DPU 和 NVIDIA InfiniBand 网络,将为英国学术研究机构在广大的穿插钻研上提供平安的、多租户、裸金属高性能计算 AI 和数据分析服务。

同时,CSD3 也采纳了由 NVIDIA 赋能的全新云原生超级计算平台以及由剑桥大学和 StackHPC 共同开发的一款名为“Scientific OpenStack”的云 HPC 软件栈。

剑桥大学高性能计算总监 Paul Calleja 示意:“依照 2020 年 11 月 TOP 500 榜单,这套零碎将跻身前 100 名。它将使咱们的钻研人员可能使用超级计算架构畛域的最新成绩来充沛优化他们的利用。”

简略来说,CSD3 零碎无望借助 4 PFlops 的利用性能,在一系列畛域进行钻研,包含天体物理学,核聚变发电和临床医学利用。

云原生超级计算机 —— 为超算装上第三个“大脑”

超级计算机通常有两个“大脑”—— CPU 和加速器 GPU。

GPU 个别会汇合数千个解决核,可为 AI 和 HPC 利用中最重要的并行运算提供减速。CPU 是针对须要疾速串行解决的算法局部而设计的,但随着其治理的零碎日益宏大且日渐简单,通信的层数一直增多,导致 CPU 的累赘越来越重。

云原生超级计算机则为超级计算机引入了第三个“大脑”—— DPU,旨在帮忙构建更快、更高效的零碎。DPU 可能卸载平安、通信、存储等须要由古代系统管理的工作。

从实际效果层面来看,云原生超级计算机交融了超级计算机的弱小算力和云原生服务的安全性与易用性。

首先,它容许多用户共享一台超级计算机,同时保障每个用户的利用的安全性和私密性。这种能力被称为“多租户隔离”,在当今的商业云计算服务中非常广泛,但个别不会呈现在技术和迷信利用的 HPC 零碎中,因为在这些零碎中,裸性能的优先级最高,而平安服务会升高零碎效率。

其次,云原生超级计算机应用 DPU 来解决存储、租户隔离平安和系统管理等工作。这样能够卸载 CPU,使其专一于解决工作,从而最大限度地进步零碎的整体性能。

云原生超级计算机还有一个特点,就是它的计算和通信是并行处理的。

在传统超级计算机中,运行中的计算工作有时不得不暂停期待 CPU 去解决通信工作,这是业界熟知的一个问题,被称为零碎噪声。

云原生超级计算机能无效的解决零碎噪声的问题。俄亥俄州立大学 MVAPICH 实验室的一份晚期测试结果显示,在云原生超级计算机执行某些 HPC 作业的速度是传统计算机的 1.4 倍。该实验室还展现,云原生超级计算机实现了计算和通信性能的 100% 重合,这比现有的 HPC 零碎高出 99%。

如此,一台超级计算机便能够在不损失性能的状况下,实现云原生服务,使零碎在运行 HPC 和 AI 利用时时刻放弃最高的运行效率。

云原生的将来,是什么形态?

云原生超级计算机离咱们可能比拟远,但正如前文所说,云原生的呈现,无疑将为咱们的技术倒退和状态带来极大的扭转。过来两年的行业调研结果表明,无论是中国还是美国,云计算的新增长点曾经都转向云原生相干的畛域,如容器即服务(Containers as a Service,CaaS)、编排技术、微服务、DevOps 等。

同时云原生相干的技术栈也失去了疾速的倒退,以 Docker、Kubernetes、Istio 为代表的容器运行时、编排零碎、服务网格曾经成为事实上的规范,而 API 网关、无服务框架也在疾速演进中。

能够预计,将来 5 年内,云原生相干的技术会在互联网企业、金融、运营商等行业失去大量利用落地,那么云原生的将来倒退,将会是什么形态?

相干参考资料:

1、剑桥大学官网(https://www.cam.ac.uk/)
2、https://www.zdnet.com/article…
2、https://zhuanlan.zhihu.com/p/…

退出移动版