关于人工智能:阿里云高性能计算负责人何万青阿里云大计算加速HPC与AI融合

32次阅读

共计 3537 个字符,预计需要花费 9 分钟才能阅读完成。

摘要:2022 年 8 月 5 日,2022 阿里云生命科学与智能计算峰会在北京望京昆泰酒店举办,阿里云高性能计算负责人何万青博士,带来了题为《阿里云大计算减速 HPC 与 AI 交融》的分享,以下是他的演讲内容整顿,供大家阅览:

阿里云高性能计算负责人  何万青

人类历史上各种广谱药的发现,是一个漫长且靠运气的过程。新药的发现和制作往往须要十多年的工夫,每年 FDA 可能批准上市的新药少之又少。

而新冠的暴发带来了一个重要契机,咱们通过整合云上计算资源,第一工夫帮到科研机构发展新冠钻研,从而发现了云计算具备的独特劣势。据报道,世界上前 20 大药厂 70% 的算力和研发都在往云上迁徙。

在新冠疫情暴发初期,阿里云第一工夫收费凋谢 AI 算力反对抗疫研发,反对科研人员围绕新冠病毒进行药物钻研;其次,通过大数据进行公共医疗政策的钻研,助力大数据系统、追踪零碎以及决策零碎;另外,向全世界凋谢阿里的科研抗疫平台,对接了来自 50 个国家 & 地区的 33 个需要。

而这个契机也让咱们意识到,AI 是一种行将暴发的新的 IT 技术、新的计算平台。

过来,高性能计算反对生命科学的倒退,次要着力于科研和科研团队的造就,但并不明确会导向何种药物、何种后果。而现如今,此类需要非常明显,咱们面对大量的数据库和化合物,须要对疾病和样本做剖析、基因测序。

过来的利用分为两大类:第一类是基于第一性原理的分子动力学、量子色动力学等,比方剖析细胞组成的分子之间的作用力、化合物之间的作用;第二类是面向精准医治时的基因测序,同样须要十分大的算力,科学家须要解决的是机理和算法问题,但大规模的实现须要工程人员来解决,比方高通量测序。

最近几年倒退最快的是 AI 算法,通过 AI 对大量数据进行筛查。而此过程须要解决的问题有:如何将 AI 算法和技术放在云超算平台上?大量的数据如何在云上进行传输?

总结来说,高性能计算在云上进行服务,须要解决以下线下超算的痛点:

① 弹性扩大难:理论业务中,往往难以预测突发状况的需要,因而,弹性伸缩十分必要。
② 可靠性不高:计算中心或物理集群规模扩充之后,无奈保障百分百的稳定性,因而必然会呈现从新计算的需要,针对此需要,云计算稳固的 SLA 之外,还实现了断点续算技术。
③ 性能瓶颈:云上计算冲破了海量数据进行机器学习或筛查的 GPU 瓶颈,过来破费数周数月才可能实现的计算,现在可缩短为几天。
④ 老本挑战:过来,老本和算力难以兼得,自建超算核心往往 CAPEX 不低,且后续运维老本 OPEX 更大,难以实现。

借助云平台,科学家和科研人员可能分心于本人业余内的工作,聚焦于利用。而利用这一层,科研人员将它作为软件放至云上,让更多的科研人员实现科研单干和服务共享。

阿里云最根本的能力是提供弹性的伸缩算力,在此之上,高性能计算最外围的局部是与伸缩算力耦合的并行作业调度,还须要反对 AI Framework。用户如果有本人的计算资源,能够通过混合调度在云上利用原有的计算资源。大部分科研人员对本地环境最相熟,须要将它们的能力迁徙至云上。此外,生命科学畛域十分依赖于全世界的 NH 数据库,且须要高速互联,也能够通过阿里云的高速来实现。

HPC 利用是 Data go to compute,但 AI 是分布式、数量极大的 compute go to data 计算模式,有本人的生态,如何对两者进行联合?中国的软件公司仍然不够发达,新产品、新发现难以在短时间内为人所知,受限于盗版问题和推广问题。但在云上能够实现 SaaS 化,通过 OpenAPI 将产品变为云上的服务。

高性能计算里有两个很大的畛域须要有限的算力,别离是地球物理和气象和生命科学。这就须要基于神龙的弹性裸金属超级计算集群 SCC 来提供了低提早网络和并行文件系统的高性能集群。

通过高性能计算推动实现了阿里云 CPFS 并行文件系统,提供了除了云上大数据类型的 HDFS 分布式存储,可能实现了大批量并行吞吐的需要。

通过阿里提供的“无影”,能够拜访任何端和云上的计算资源,包含但不限于 PC、手机、屏幕等,能够将公共云的操作、利用入口以及背地的集群资源管理整合在一处。一方面能够作为虚构的桌面,另一方面也能够作为利用入口。

咱们买通了云上云下,云下能够通过专线连至云上,头节点在线下,而后在云上装置 E-HPC agent 即可通过 job scheduler 调度资源。大部分状况下,工作数据须要进行两边的传输,因而能够充分利用线上线下的顶峰低谷。此外,NAS 异步存储的数据能够在作业执行时从线下拉取,这在高通量计算场景下十分必要。

另外,也能够将计算的治理埋在头节点,即应用 E-HPC 作为管控,本人的管控通过在云下接管 agent 进行计算来实现。

E-HPC+AI 是以后的热门趋势。各种 AI framework 最后的目标不是为了解决迷信机感性的问题,而是为了解决搜寻、推广、广告等与群体思维无关但不足机理模型的问题。而现在,咱们将高性能计算容器做成镜像,在部署和计算过程中疾速开展,使其也能用于科学研究,比方在领有大量数据的状况下,将人的教训作为模型注入 AI,而后通过机器将问题空间升高。

此外,为了不便科研人员的应用,咱们减少了 E-HPC 用户入口。整个开发和业务流程都能够从用户视角进行查看。

平台集成了泛滥可视化软件,科研人员能够通过客户端(无影 +Win&Mac)间接进入,底层提供了所有服务。

无影是软件定义的云原生电脑,相当于一个入口,它能够是任何设施或屏幕。云上数据中心的规模远小于端的规模,而端侧受限于 CPU 的能力往往无奈实现太多能力。然而如果通过 VID 或本人的协定,可能将云上的可视化局部利用起来,则能够实现十分多的拜访。

过来传统的计算构造的交互为显示器、键盘鼠标、打印机等与一台计算存储网络。而将来,只须要通过无影,它可能是一个盒子,可能是一个电脑上的利用入口,即可拜访所有云上的可视化软件以及计算资源。无影很可能成为未来元宇宙的入口,因为所有 GPU、DPU、XPU 未来都是通过服务的模式进入数字世界。

此外,用户齐全能够管制信息不被泄露。过来,咱们通过一台全功能的机器上网,病毒能够通过机器入侵电脑。而无影能够配置为是单向的,防止了病毒入侵。

无影能够作为云产品放在任何机器上,比方过期的手机,随时随地用云电脑办公。

现在很多科研产品是软件,须要更多地服务宽广科研工作者。而在本人的机器装置和应用,运维和 OPEX 都十分高,也难以调用更多资源。

因而,咱们推出了计算巢,能够通过它疾速将云计算自身的运维、资源调度、资源计费等所有资源管理通明地凋谢给用户,用户只需思考装置类工作,剩下的都能够交由计算巢来实现。

阿里云明天公布生命科学行业云上解决方案与最佳实际白皮书,次要蕴含三局部:云能解决生命科学畛域的哪些问题、五大解决方案以及三大最佳实际。高性能计算实质上心愿可能帮忙科研人员将精力集中于业余畛域,而无需消耗精力在处理器构造等非专业畛域的问题上。

E-HPC 与 MemVerge 的集成解决方案次要助力于 HPC 基因测序及芯片设计大内存算例的性能优化,能够将惯例内存与持久性内存全副虚拟化成一个大池,依据具体需要进行伸缩。

GHDDI 在新冠期间研发作业量大增,面临资源紧急需要,须要疾速启用一批计算资源撑持新冠病毒剖析、病理剖析等业务,同时 GHDDI 是一家全球化的钻研机构,须要买通国内海内数据,实现寰球单干钻研。比方会有 web service,须要通过 OSS 将数据拉上来,另外须要可能实现异步的数据拉取以及异步缓存。

咱们为其提供的解决方案如下:

◾ 利用 AutoDock Vina / NAMD / AI 技术通过 docking 和分子动力学模仿进行药物筛选,并将计算成绩间接通过阿里云对外颁布和共享;
◾ E-HPC:创立 HPC 利用运行环境;
◾ NAS:提供数据存储;
◾ ECS/EGS:提供计算能力 & wiki 服务;
◾ 8 台 8 卡 A100 算力撑持;
◾ OSS+EIP:计算成绩存储和对外共享。

药物钻研企业的需要往往是低成本、弹性伸缩,可能很分明地跟踪每一个 workload。咱们针对某药企的需要,开发了抢占式实例,抢占到实例后存在限定的工夫,超时后不做任何清理则对资源进行开释,极大升高了老本。

逆转录的钻研须要将数据库与海内的数据库通过阿里的高速网络买通,实现异步复制和高通量的计算。

通过多 CPU 并行利用 AlphaFold2 能够预测单链构造模板。咱们心愿可能在云上凋谢 AlphaFold2 服务,为院校的日常课程、培训提供更大的反对。

科研类单位、制药企业的业务存在极大的随机性,因而对于资源的利用率须要更精细化的治理。

阿里云高性能计算的指标是为科研行业提供更高的算力和更高的资源利用率,服务更多科研人员,让科学家们将更多的精力投入于业余畛域当中,为科研行业助力!

点击这里,观看嘉宾在本次峰会的精彩演讲视频。

正文完
 0