一、前言
GPU集群的高性能次要归功于其大规模并行多核构造、多线程浮点算术中的高吞吐量,以及应用大型片上缓存显著缩小了大量数据挪动的工夫。咱们能够这样说:GPU集群比传统的CPU集群具备更好的老本效益。GPU集群不仅在速度性能上有微小飞跃,而且显著升高了对空间、能源和冷却的要求。基于GPU的并行集群零碎的各类产品遍布我国的生产,生存。本文将介绍GPU的并行集群的技术和其在我国的倒退情况。
二、GPU集群
图形处理器GPU长于解决大规模密集型数据和并行数据,通用并行架构CUDA让GPU在通用计算畛域越来越遍及。
基于GPGPU的高性能计算次要利用与云计算吧,企业对老本以及效率的要求越来越高,随着产品的一直降级,越发的对横向和纵向都提出了更高的要求,横向要求平台化流程化自动化,纵向要求产品本身性能高端。
服务器的稳固十分重要,一旦呈现解体等重大异样,将对企业的利用生产和交付产生微小的影响。
治理 GPU 集群有助于实现最高的指标 GPU 利用率以及帮忙用户获得最佳性能。GPU集群的构建采纳了大量的GPU芯片。在一些Top500零碎中,GPU集群曾经证实可能达到Pflops级别的性能。
大多数GPU集群由同构GPU构建,这些GPU具备雷同的硬件类型、制作和模型。GPU集群的软件包含操作系统、GPU驱动和集群化API,如MPI。因为GPU集群的高性价比,高性能计算畛域中GPU集群的应用越来越广泛。
GPU集群相较于CPU集群,可能在应用较少操作系统镜像的状况下失常工作。在电力、环境和治理复杂性方面的升高使得GPU集群在将来高性能计算利用中十分有吸引力因为GPU集群的高性价比,高性能计算畛域中GPU集群的应用越来越广泛,但GPU集群并行编程并没有一个规范的通信模型,绝大多数集群利用采取CUDA+MPI的办法实现,而CUDA和MPI编程都十分艰难,须要程序员理解GPU硬件架构和MPI消息传递机制,显式管制内存与显存、节点与节点间的数据传输。因而,对编程人员来说,GPU 集群并行编程仍是一个简单的问题。
三、GPU的并行集群
目前很胜利的产品呈现在市场上,如:
1、Platform HPC 由 Platform Computing 公司开发,旨在让技术应用程序的用户可能轻松利用 GPU 高性能计算集群的解决能力和扩大能力。
2、Bright Cluster Manager 是一款齐全集成的解决方案,用于部署、测试、提供 (provisioning)、监控以及治理 GPU 集群。 凭借 Bright Cluster Manager,集群管理员可能同时轻松装置和治理多个集群。
3、PBS Professional 是 Altair 公司的 EAL3+ 平安认证商用级高性能计算工作负荷治理解决方案。 PBS Professional 是所有 PBS Works 解决方案的根底,让开发者可能轻松创立智能政策,以治理分布式多厂商计算资产。
4、Bright Cluster Manager 是一款齐全集成的解决方案,用于部署、测试、提供 (provisioning)、监控以及治理 GPU 集群。 凭借 Bright Cluster Manager,集群管理员可能同时轻松装置和治理多个集群。
5、Ganglia 是一款开源可扩大分布式监控零碎,用于集群与网格 (Grid) 等高性能计算零碎。 该零碎通过了精心的工程设计,可让每个节点实现极低的零碎总开销以及极高的并发性。 Ganglia 目前已使用在寰球数以千计的集群当中,该零碎能够扩大,可能解决具备数千个节点的集群。
6、吉浦迅科技与英伟达(NVidia)、惠普(HP)独特单干推出 的HP GPU Starter Kit超算集群测试环境,提供最高四节点/8-GPU/4096核,浮点计算能力高达10万亿次的测试环境,针对国内高校、科研单位可能疾速体验超强的运算速度。
四、结束语
GPU集群比传统的CPU集群具备更好的老本效益。GPU集群不仅在速度性能上有微小飞跃,而且显著升高了对空间、能源和冷却的要求。搭建CPU-GPU集群并行计算平台,集群中每个计算节点都以CPU为主处理器GPU为协处理器,将并行数值计算局部由GPU实现,其余操作由CPU实现。这种技术曾经以后行业的必然倒退方向,高性能计算畛域中GPU集群的会越来越广泛,为咱们的生产,生存带来更好的方向。