共计 4119 个字符,预计需要花费 11 分钟才能阅读完成。
简介:摘要:本文将从生命科学行业现状机器对算力的微小需要开始,展现该行业目前在基础设施层面临的需要与痛点,解答为什么云上高性能计算将大大有助于生命科学企业的疾速倒退。
文 | 阿里云弹性高性能计算团队 image.png
生命科学行业正迎来倒退的黄金期间。医学的倒退和人们对衰弱的谋求,正疾速转换为生命科学整个产业链倒退的新动能,高性能计算 HPC 在生命科学钻研中扮演着非常重要的角色。同时,随着生命科学行业的疾速倒退,咱们能够看到,行业的上云曾经成为了势不可挡的趋势。
得益于云的弹性与便捷,一个行业对云计算的急迫需要往往与其疾速倒退分不开,传统 IT 的备货、交付、部署的长流程决定了它无奈满足疾速成长的行业猛增的 IT 需要。
本文将从生命科学行业现状机器对算力的微小需要开始,展现该行业目前在基础设施层面面临何种需要与痛点,解答为什么云上高性能计算将大大有助于生命科学企业的疾速倒退。
一、生命科学对算力的需要:规模大、高性能、类型丰盛
目前,生命科学行业最次要的两个场景,别离是计算机辅助药物设计和基因测序。
1、计算机辅助药物研发
21 世纪以来,因为疾病复杂程度的一直晋升,可成药靶点逐步缩小,新药研发的难度和老本明显增加,同时寰球新药研发成功率呈显著降落趋势。翻新药物研发是药企构建外围竞争力和继续倒退的要害,而药物研发是一项高投入、高技术、高风险、长周期的系统工程。药企开始寻求 AI、大数据等计算机技术辅助药物研发。
image.png
药物研发全流程
新药的诞生通常须要经验药物发现、临床前钻研、临床试验和审批等阶段后,最终才能够获批上市。在靶点发现、化合物合成等药物发现阶段,以及化合物筛选等临床前钻研阶段,往往须要借助高性能计算弱小的计算能力能力减速研发过程辅助药物设计。
在靶点发现环节进行蛋白质构造预测时,既有基于分子动力学和平面波等进行预测的计划,也有基于 AI for Science 的解决方案。
前者是高性能计算 HPC 典型的利用场景,有 VASP、Gromacs 等成熟软件的解决方案,通过计算失去模仿后果。该计划中,模仿问题规模与计算资源数量成正比。
与此同时,业界也逐步涌现出 AlphaFold2 等解决方案,通过利用 AI 技术建设蛋白质序列和构造的关系,一直学习已知序列和构造进而对蛋白质构造进行预测。在弱小的算法与算力的反对下,DeepMind 将运算工夫从数月缩短至数小时。随着网络模型参数规模的减少,对算力的要求也越来越高。
image.png
蛋白质三维构造 AI 预测
同样地,在虚构化合物筛选时,药企通常须要对数百万级别的分子和蛋白构造做对接。每个配体分子都须要计算资源来获取对接分数,从而筛选出可用于试验验证活性的分子,面对海量的配体分子库,是须要宏大算力撑持分子和蛋白构造的对接工作。显然,单机的算力是很难胜任这样大规模的虚构筛选工作,因而应用高性能计算 HPC 集群进行大规模虚构筛选工作就至关重要。
image.png
先导化合物发现流程
在靶点发现、化合物筛选和化合物合成等流程中,不同的计算模式、参数和软件,对计算资源的要求往往也是不同的。尤其随着 AI 的引入,对多资源的多样性配置提出更高的要求。
2、基因测序
基因测序的业务流程次要包含样本上机(测序仪)、测序文件生成、基因序列比对及后果剖析(计算机),并将后果数据及报告交付至各科研医疗机构。其中,基因序列比对及剖析环节极为耗时,波及大量的生信畛域业余软件,计算资源的算力性能及计划优化对生信研发效率起着至关重要的作用。
image.png 基因测序业务流程
对于基因测序典型的 WGS(人类全基因组测序)流程,因为波及文库索引构建、reads 比对、排序、去重、BQSR 校对以及 Caller 等环节,办法多样、流程简约,且不同步骤对应 BWA、GATK 等不同的软件及参数,不同的生信软件可能又对应不同的并发能力及性能,不同的筛选工作对计算资源的多样性和规模都是不同的,不仅须要弹性的计算资源,还须要具备多样的实例配置。
image.png
二代基因测序 WGS 测序流程
二、生命科学在基础设施层面临的痛点与挑战
原来大部分的生命科学企业都是采取本人在线下自建 IDC 机房的形式。总体来说,生命科学企业的 IT 基础设施次要面临资源规模固定、建设周期长和硬件资源运维老本高三大问题,具体表现如下:
1、资源固定,无奈满足业务增长和资源多样性需要
1.1 算力规模固定,影响业务增长速度
企业在建设传统 IDC 之初,资源规模往往是明确布局的,因而整个集群的工作吞吐量是固定的。对于具备周期性的新药研发及测序业务来说,不同的研发周期和研发工作对资源的需要是不一样的,所以通常就会产生:在高峰期呈现工作因期待资源而排队的景象,低谷期又呈现资源闲置的问题,这就须要有弹性的计算资源来解决业务。
1.2 资源配置固定,无奈满足资源多样性需要
本地 IDC 机房的计算资源因为是后期布局好的,其资源的配置是限定的,则会导致传统测序形式常常以雷同的资源去实现不同测序步骤的执行,无奈灵便变配,导致了大量的计算资源节约。然而如前所述,其所须要的计算资源是灵便多边的。
1.3 存储容量固定,无奈满足用户一直增长的存储需要
对于一直增长的存储规模,生信企业面对极大的线下存储设备运维和存储设备洽购老本压力,如何可能取得高效、平安、稳固、高性价比及可继续的存储解决方案,也是生命科学企业面临的一大难题。
以蛋白质构造钻研为例,个别有 X 射线晶体学、核磁共振和冷冻电镜三种办法来测定蛋白质构造。以冷冻电镜为例,单个样本的电镜数据个别是 10TB 级别,企业本地的数据量都是 PB 级。与此同时,生物信息科研数据蕴含大量的参考文库数据、样本数据及两头数据文件。其中,单个人类全基因组测序的全流程数据就达 1TB 大小,因为生信数据的周期性及特殊性,通常的生信企业本地数据的存储量都达到 PB 级别。
2、建设周期长,影响业务增长
2.1 交付周期长,无奈满足用户即开即用的时效需要
传统 IDC 建设,个别须要经验有立项、招投标、洽购和交付等流程,往往须要数月甚至长达一年的建设周期。在立项环节须要对后续业务规模进行评估、明确资源建设计划,这对于倒退较快的业务来说,如此长时间的建设周期将成为倒退较快的业务的瓶颈。
2.2 硬件资源选型迭代慢,无奈满足用户一直降级的资源需要
在传统 IDC 建设中,企业往往很难疾速地获取最新架构的硬件资源,而这些资源往往能够给业务带来可观的减速。
例如,相较于 Volta 架构,英伟达 A100 架构的单精训练最高能够提供 20 倍的减速,这对于借助 AI 技术来减速的蛋白质构造预测来说,是一个极大的助力。
而对于 WGS 测序,基于 GPU 或 FPGA 的异构减速计划研发也存在着大量的选型及验证过程。在线下 IDC 建设中,不仅须要思考 CPU/GPU/FPGA 等产品的公布工夫,抉择适合的硬件规格,还须要评估业务架构的倒退,这将是生命科学各类企业在建设资源时面临的微小挑战。
3 运维老本高
线下 IDC 机房的运维工作也须要较大的人力投入。除了集群计算资源的治理、计算工作的调度、用户权限治理之外,计算资源自身的稳定性,尤其是硬件故障对业务进度将会产生重大影响。如果工作在计算过程中因宕机而终止,在没有 checkpoint 的状况下只能从新计算。此外,线下存储也须要思考容灾,防止因硬件故障导致的数据失落。所以,计算资源的治理、资源稳定性、数据容灾等工作都须要专门的运维团队来负责,无形中又减少了老本。
以后,因为传统 IDC 提供的基础设施存在资源限度、交付周期长、资源无弹性、硬件资源迭代降级慢、运维老本低等问题,越来越多的生命科学企业转向更具弹性、稳固、高性价比的云上高性能计算解决方案,以放慢业务的翻新倒退。
三、阿里云 EHPC 生命科学系列解决方案
阿里云置信,云上高性能计算是目前 HPC 建设应用的最佳路径。针对生命科学行业的相干需要,阿里云依靠遍布寰球的计算力及当先行业的神龙架构,提供高性能计算公共云解决方案、混合云解决方案、大内存实例性能优化解决方案、容器化解决方案、制药 AI 解决方案等,能够笼罩解决行业不同场景需要,并领有以下劣势:
(1)丰盛算力,按需购买:阿里云在寰球四大洲开服经营 27 个公共云地区、84 个可用区;云上主动伸缩能力反对跨数据中心调度,满足大规模并行作业要求计算资源的类型也可依据调度器队列灵便配置反对多规格异构算力,以及大内存型、高主频等规格 CPU 实例;
(2)弹性伸缩,降本增效:阿里云弹性高性能计算 E -HPC 平台可动态创建 / 删除计算节点,灵便配置伸缩策略,按理论负载弹性计费,抢占式实例价格最低至 1 折,升高客户应用老本,进步作业品质及速度;
(3)极简运维,让企业专一外围业务倒退:全面兼容 HPC 业务,主动搭建集群,提供作业运行性能剖析,别离基于集群、实例、过程等维度定位热点,反对作业报表可视化输入,提供用户、工作、队列等维度的生产组成;
(4)新技术赋能,疾速享受红利:IaaS 层,阿里云继续迭代最新算力,SaaS 和 PaaS 有着上百家第三方合作伙伴集成阿里云,让生命科学企业疾速获取相干技术服务。阿里云丰盛的生态及云上继续迭代的技术能力,帮忙企业享受到全流程的技术服务与最新技术红利。
阿里云高性能计算目前曾经广泛应用于工业仿真(CAD/CAE)、芯片设计(EDA)、生物医药资料、能源勘探与公共服务等多个行业。
深势科技利用弹性供给的老本优化策略,联合抢占式实例的价格,以 30% 的老本实现海量资源的交付。同时云上弹性高性能计算 E -HPC 主动运维的个性,升高了深势科技的运维老本,晋升了集群管理效率。
生命医学企业圣庭医疗通过上云优化了传统 IDC 集群的数据可靠性、运维老本及效率问题,基因比对与剖析效率晋升了 70%。阿里云高性能计算团队还通过联合 Slurm 业务工作流 dependency 与主动伸缩的联合,缩小了有效的计算资源节约,无效升高了应用老本。
欢送点击以下链接进入“阿里云生命科学最佳实际”专题页理解更多计划与案例具体内容:https://developer.aliyun.com/…
原文链接:http://click.aliyun.com/m/100…
本文为阿里云原创内容,未经容许不得转载。