关于高性能计算:阿里云架构师马继雨云超算解决方案全面助力生命科学行业普惠增效

38次阅读

共计 3147 个字符,预计需要花费 8 分钟才能阅读完成。

摘要:本文整顿自阿里云弹性计算产品解决方案架构师马继雨(芦笋),在阿里云「云计算情报局」的分享。本篇内容次要分为四个局部:

  1.   生命科学行业综述
  2.   生命科学行业剖析
  3.   云超算解决方案
  4.   要害个性及计划劣势

01 生命科学行业综述

生命科学是钻研生命现象、揭示生命流动法则和生命实质的迷信。通常把服务于科学研究的企业所处的行业统称为迷信服务行业,把服务于生命科学钻研的企业所处的行业叫生命科学服务行业。生命科学技术是以分子遗传学为外围的先进科学技术。生命科学所要答复的首要问题就是“什么是生命”。

生命科学的次要畛域是医药、生物、银行、基因等相干的一些畛域。在市场中,非亲非故的客户群体也次要是医院、研发、科研等。

整个行业的产业链分为上、中、下三层。上游次要是设施的生产及软件研发,较量默飞,华大都是较为有名的上游厂商;中游次要是以服务商为主;上游是医疗机构、科研场合、制药公司等服务。

由此可见,上游把握着整个行业命根子。中游为面向终端用户的生命科学服务商为用户提供相应服务,从中收取服务费。上游则为服务使用者,其决定了中游服务细分赛道的市场容量、发展前景及业务模式特点。

以基因检测技术为例,二代基因测序是以后下基因检测最热门技术。次要为从血液或唾液中剖析测定基因全序列,预测罹患多种疾病的可能性。

基因测序相干产品和技术已由实验室钻研演变到临床应用,能够说基因测序技术是下一个扭转世界的技术,与 PCR 和 FISH 技术相比,具备高通量、数据量大的特点。基因测序技术的毛病是操作简单、对样本 DNA 浓度和纯度要求较高,且数据庞杂。

联合基因组学比拟典型的业务,全基因组测序。人类基因组打算(HGP)历经 13 年,在 2003 年实现,使得整个基因测序畛域产生了革命性的变动,随后很多政府赞助的大规模测序打算也陆续启动,如 1000 基因组打算、10K 打算等,极大推动了人类对基因变异、人类进化和基因疾病的钻研及发现。

在计算机科学生信畛域,基于 GATK 的全基因组测序流程则在古代基因测序中施展着至关重要的作用。

在典型的基因组测序业务中,波及应用软件数量繁多,且应用形式各异,也存在大量的串行化软件,典型的全基因组测序流程,有两个次要特色。

第一,执行工夫长,惯例流程及通用计算资源,一个人类基因组样本须要近 1000 核时进行解决。第二,数据量大,单个样本均匀能产生 1TB 的两头数据。

因而,联合集群调度器晋升并发效率、联合异构计划减速执行性能、基于容器部署不同业务镜像、存储的冷热数据备份,都已成为计算机生信畛域次要的剖析课题。

02 生命科学行业剖析

传统超算计划,次要通过线下超算集群或者自建的机房对接。目前,次要面临三个问题。

  1. 资源老化后保护艰难。用户资源老化过保后,资源复用及保护,须要投入大量的人力、财力。
  2. 业务的峰谷效应。因为资源无限,高峰期作业排队工夫长,低谷期资源使用率低。
  3. 已有集群无奈满足新增业务及技术创新的须要,可扩展性有余,洽购周期比拟长。

随着基因组的一直演进,计算科技的一直倒退,传统基因组测序曾经无奈满足现有的业务的倒退诉求。

对于传统的高性能计算业务流程,次要分为以下三个阶段,即业务前的解决,业务中的提交调度和执行,业务后的可视化剖析。

如右上角,作业提交至调度器。调度器做线下机器的调度散发,依据作业运行配置和以后资源状况,调度适宜的资源参加计算作业。

传统行业的计划有以下几个特点,扩展性不佳、性能瓶颈,治理保护难,新技术挑战。其中,较为显著的是性能瓶颈,顶峰算力有余,作业排队工夫长,重大影响业务。

在治理保护方面,投入老本较大,软件对立管控、平安保障、建设运维一体化的计划不够。

03 云超算解决方案

阿里云高性能计算产品 E-HPC 次要是软件服务,通过高性能计算业务习惯与云计算劣势相结合。大规模集群部署与推理,弹性的应用资源,工作流从前到后的保障,作业调度运行的治理,多客户的平安隔离,性能分析与调优。

HPC 作为基础设施,合乎高性能计算业务场景与可靠性的要求。计算、存储、网络,图形可视化,满足了用户极致的性能诉求,低延时的网络通信,大规模推送的并行文件系统。

在线性扩容方面,阿里云高性能产品联结生命科学行业三十多款利用,提供轻量级应用便当。对于征信行业,兼容泛滥市场支流征信软件,提供生命科学对立门户。

阿里云在 PaaS 层提供集群算力、弹性伸缩、多级缓存、商业治理、资源生命周期的治理服务。底层是阿里云平台算力资源,神龙虚拟化技术,用户能够抉择多种计算实例规格。

高性能计算公共云解决方案,通过全量上云,在云上搭建 E-HPC,提供资源调度、作业管理、弹性伸缩等能力。

高性能计算混合云解决方案分为两种。第一种,调度节点在线下机房,资源不够时向线上扩容新节点。利用场景以本地建设为主,云上为满足突发业务需要。有利于疾速满足突发需要,按需应用随时开释。

第二种,调度节点在 E-HPC 集群,同时治理线下已有计算节点。本地以有机房建设,但后续以云上建设为主。有利于利旧云下基础设施,逐渐过渡。

生命科学大计算解决方案的 CPU 内存提供 1:2,1:4,1:8 实例,同时提供高主频实例。下层是 E-HPC 的资源调度管控。

在大内存实例性能优化解决方案中,E-HPC 基于阿里云基础设施,为用户提供一站式公共云 HPC 服务,提供快捷、弹性、平安和与阿里云产品互通的技术计算云平台。HPC 弹性伸缩,将 MemVerge 节点主动纳管,业务顶峰扩容带有 Memverge 软件的 ECS,低谷时开释,节省成本。

HPC 作业调度带有 MemVerge 软件的大内存实例计算,在基因测序及 EDA 芯片设计场景,实现性能极致优化。

E-HPC+MemVerge 软件 +ECS i4p 实例一键装置部署,在 ECS 上主动部署 Memverge 软件,解决每弹一台 i4p 部署一次 Memverge 软件的手动部署的繁琐低效问题。

在制药 AI 解决方案中,有数据采集,荡涤标注,模型训练,模型部署与推理五个环节。阿里云 ECC1G-10G 的网络专线,解决采集数据上云。OSS 对象存储反对海量数据存储,数据散发 / 归档。NAS/CPFS 井行文件存储提供高吞吐、低时延,高达百 GB/s 吞吐和百万 IOPS,多种 I/O 模型,大文件小文件混合型 workload。

04 要害个性及计划劣势

E-HPC 的劣势在于,疾速创立云上的 HPC 集群。在云下,须要布局网络,软件初始化,账号解决。在云上,只须要半个小时,就能实现 HPC 集群的搭建。

HPC 利用的性能剖析,采纳逐层剖析、优化的办法。基于零碎及过程函数指令、微服务架构、HPC 利用,阿里提供各个层级的优化剖析。

E-HPC 主动伸缩反对跨数据中心,一个集群的计算资源能够在不同数据中心,满足大规模并行作业要求,计算资源的类型可依据 HPC 调度器队列灵便配置。

在数据全流程可视化中,作业前通过 web 页面或者 SSH,登录管控节点,进行操作。在作业运行中,能够通过性能剖析、过程剖析,做资源的监控和治理。在作业的最初,能够通过阿里云资源的云桌面,做可视化的数据处理剖析。

E-HPC 的劣势在于丰盛算力,主动伸缩反对跨数据中心,满足大规模并行作业要求。反对多规格异构算力,以及大内存型、高主频等规格 CPU 实例。

在老本方面,E-HPC 能够动态创建 / 删除计算节点,按理论负载弹性计费。灵便配置伸缩策略,反对抢占式实例,反对跨可用区伸缩,升高客户应用老本。

在运维方面,E-HPC 全面兼容 HPC 业务,主动多可用区集群搭建。提供作业运行性能剖析,别离基于集群、实例、过程等维度定位热点。在新技术创新中,E-HPC 提供生态 SaaS、PaaS 赋能,如 GPU、FPGA、倚天等新产品的加持。

丰盛算力、最优老本、极简运维、新技术赋能,E-HPC 全方位为生命科学行业助力,真正实现普惠增效。

点击这里,观看嘉宾的演讲视频回放。

正文完
 0