关于高性能计算:阿里云架构师马颂云上高性能计算助力基因测序

8次阅读

共计 2663 个字符,预计需要花费 7 分钟才能阅读完成。

摘要 :本文整顿自阿里云行业解决方案架构师马颂(栖逸),在阿里云计算情报局的分享。本篇内容次要分为三个局部:

  1.  寻因生物简介
  2.  单细胞测序及其痛点
  3.  寻因生物基于 E -HPC 的大内存实例解决方案

01 寻因生物简介

寻因生物开创团队及公司于 2018 年正式启动组建经营,是一家专一于单细胞技术的生物科技企业。致力于通过自主研发的高通量单细胞产品试验及生信剖析全链条服务,将单细胞技术普适化,助力临床诊断和药物研发,推动精准医疗进入 2.0 时代。

这家成立于 2018 年,驻扎在北大医疗产业园的初创企业,在 2022 年 1 月取得 D 轮融资,并在上海、广州和成都设立中央实验室。公司面向临床及科研工作者的理论需要,搭建了从样本保留、解离到生信剖析的全链条单细胞测序产品及服务解决方案。客户将样本送到寻因生物上海、广州或成都的实验室。

样品采集到之后,在实验室中通过试验进行序列加工和信号放大,将分子循环扩增,给每一个分子和细胞加上标签。辅助辨认检测的分子来自哪个细胞、哪个基因。而后通过物流的形式送到北京进行测序。测序的后果上传到寻因的阿里云 OSS 或通过专线下载到本地,再做单细胞剖析。

02 单细胞测序及痛点

单细胞测序作为 2009 年首次问世的技术,无疑是当初生命科学根底钻研的最大热门。2013 年单细胞 RNA 测序被 nature method 评为年度技术。2015 年单细胞测序技术再度登上 science 转化医学封面。

单细胞测序,顾名思义是在单个细胞程度,对细胞的基因表白等信息进行检测,对于多细胞生物来说,细胞与细胞之间是有差别的。

绝对于传统的测序钻研,局限于器官与组织。群体细胞的表白程度,最终失去的信号值,失落了抑制性信息。单细胞测序能够更高分辨率,解释细胞间的差别,及其在环境中的性能状况,避免细胞间的冒名顶替。

该技术曾经利用在根底科研、临床诊断、新药研发等各个领域。作为一项高效的医疗辅助伎俩,基因测序在预防出世缺点、检测遗传性疾病、肿瘤用药等畛域提供了无效帮忙。

单细胞测序技术的蓬勃发展,也助力了寻因生物业务起步。公司自 2021 年 3 月份商业化销售以来,已与 100 家客户建设科研单干关系。通过屏幕左侧典型单细胞数据分析的步骤流程图,能够看到,在单细胞测序的最初一步,数据分析环节须要针对单细胞测序数据,进行数据预处理。

比方质控、归一化、数据改正、特征选择、聚类分析、轨迹剖析、差别表白剖析、基因动力学、亚稳态剖析、成分剖析等。仅一个单细胞测序的文件大小可达 100GB 以上。随着一个单细胞我的项目蕴含的样本量越来越多,细胞数据级别往往达到数百 GB 甚至 TB。

其次,单细胞数据的剖析简单须要重复做数据读取和参数调整。导致解决海量细胞样本的剖析工作,通常要数小时甚至数天能力实现。

当样品量上来,各个样品之间又要做各种关联,或者是更简单的计算,对于算力的消耗量就会十分大,对算力的要求更高。

超大数据量和剖析复杂性会导致工作并发数低,数据加载速率慢。除此之外,生物信息行业短少一个笼罩全程的开源软件。通常一个生物计算我的项目须要多个软件配合,随着单细胞检测的老本逐步升高,利用面越来越广,生信数据将是指数级的增长。

生信剖析的习用操作是将样本参数调低,或者仅运行一个比拟大型的单细胞剖析工作。但在测序工作多的状况下,多个单细胞剖析我的项目只能排队执行。

03 基于 E -HPC 的大内存实例解决方案

为了解决上述问题,阿里云为寻因生物搭建了基于 E -HPC 的大内存实例解决方案。这套计划次要由三局部组成。第一局部是大内存云实例,搭配合作伙伴推出的内存虚拟化软件。

2017 年,英特尔奥腾 SSD 推出;2020 年,英特尔公布奥腾长久内存 100 系列,胜利实现大规模的商业化;2021 年,英特尔公布第三代英特尔至强可扩大处理器,及英特尔奥腾长久内存 200 系列。同年,阿里云基于以上产品开发了性能更加弱小的不同实例规格。

其中,I4P 可能提供性能极高的本地盘延时能够缩短至 170 纳秒,十分实用于重 IO 型利用帮忙此类利用突破性能瓶颈。

寻因生物的单细胞测序剖析工作,部署在了基于第三代英特尔至强可扩大处理器,和第二代英特尔奥腾长久内存,I4P 长久内存型实例上。配合第一款虚拟化内存硬件的软件 Memory Machine,对容量、性能、可用性和移动性进行精细化的资源调配。

在通明内存服务的根底上,还提供了另一个行业第一的技术 Zero Io 内存快照。该技术能够在几秒钟内封装数 TB 的应用程序状态,并以内存速度实现数据管理。

第二局部,阿里云的计算巢模式。云厂商凋谢给企业应用服务商和其客户服务治理的 PaaS 平台。阿里云让 Memory Machine 大内存虚拟化软件与云平台的标准化集成减速软件交付部署,并标准化运维治理,大幅晋升了业务效率。

第三局部,阿里云弹性高性能计算平台 E -HPC,可将寻因生物底层应用的不同规格 ECS 及存储实例主动纳管和调度。一键装置部署生命科学相干的软件及其运行环境。

主动在业务顶峰扩容低谷开释,防止资源节约,大大节俭运维老本。此外,E-HPC 可将 HPC 和软件一键装置部署,免去每个实例,别离装置软件的简约工作。

阿里云的大内存实例解决方案,在以下四方面助力寻因生物业务。

第一, 算得快 。E-HPC 解决方案简化编写流程、监控工作投递,以及工作运算的过程。数据加载和导出性能从 1000 秒缩至 2.5 秒;单任务的样本规模是原来的 2 倍。在运行工夫和单任务的运行工夫简直差不多的状况下,测序工作的井发运行数由原来的 1 个晋升到了 5 个,工作解决效率晋升了 5 倍之多。

第二, 成本低 。E-HPC 保障整体算力的同时,动态创建 / 删除计算节点,防止了资源节约;进步作业品质及速度,输入丰盛云原生能力撑持 ECS 反对抢占式实例,OSS 反对冷归档:付费模式多元,联合业务的需要及数据保留的性能和周期,反对老本登程的精细化调整。

第三, 简运维 。E-HPC 将寻因生物底层应用的不同规格 ECS 实例主动纳管与调度,可将生命科学相干的 HPC 软件及其运行环境一键装置部署,将带有 MemVerge 软件的 ECS 实例主动纳管与调度,大大节俭运维老本通过阿里云的计算巢蟆式将 MemoryMachine 大内存虚拟化软件与云平台的标准化集成,减速软件交付部署井标准化运维治理,大幅晋升了业务效率。

第四, 助生态 。阿里云多年深耕生物信息行业,已造成多种服务计划和客户资源,可能为上下游生物科技企业的互联互通提供更多反对寻因,基于阿里云开发出间接向用户提供服务的单细胞剖析平台,赋予科研用户和药物研发用户剖析单细胞数据的能力。

点击这里,观看嘉宾的演讲视频回放。

正文完
 0