世上没有两片完全相同的树叶,人体内的每两个细胞也是截然不同的。长久以来,基因检测技术次要是在组织层面对样本进行解析,取得的是成千上万个细胞的平均值,但这会让很多信息是被隐匿,对疾病的认知和了解存在很大的阻碍。
单细胞检测技术将基因检测的程度晋升到了单细胞的精度,能够揭示每一个细胞的轻微变动,对疾病的认知、诊疗形式的扭转、药物研发的形式提供了更好的办法。而其中,高通量测序(NGS)技术因其高度准确性和特异性成为了单细胞测序的现实工具。
寻因生物,是一家自主研发单细胞技术的精准医疗生物医药企业,致力于通过国产高通量单细胞全链条产品及服务,将单细胞技术普适化,利用于临床及药物研发,推动相干疾病钻研。
通常,单细胞测序工作流程蕴含单细胞样本制备、单细胞拆散和文库制备、测序和高级剖析、数据可视化和解读四个步骤。作为国内独家领有微孔芯片与油包水双技术平台的寻因生物来说,单细胞样本制备、单细胞拆散和文库制备是其强项。同时,寻因生物具备齐备的数据分析和解读能力,底层剖析计算效率的晋升十分必要。
据悉,在单细胞测序数据分析环节,业界普遍存在数据量大、剖析工夫长的挑战。仅一个单细胞测序文件的大小可达 100GB 以上,而随着一个单细胞我的项目蕴含的样本量越来越多,可能产生数百 GB 甚至 TB 级的细胞数据;同时,单细胞数据的剖析简单,须要重复做数据读取和参数调整,所以解决海量细胞样本的剖析工作通常须要数小时甚至数天能力实现。因而,超大数据量和剖析复杂性所导致的工作并发度低和数据加载速率慢是将来单细胞剖析性能的次要瓶颈之一。
在单细胞测序数据分析过程中,每个细胞的表白量数据高达数十万条读取 (reads),产生的数据更是要大得多,这种海量级的数据分析对云主机的内存容量提出了更高的要求。而通用的云主机的内存容量与 CPU 配比无限,单细胞的剖析工作常会呈现因内存不足而导致运行失败;而选用传统的大内存云主机,不仅要付出更加昂扬的老本,而且会造成 CPU 算力的节约。所以,内存容量的限度使寻因生物不得不将样本参数调低来满足运行工作。此外,通用的云主机仅能反对运行一个单细胞剖析工作,在测序工作多的状况下,寻因生物只能将多任务排队执行,十分耗时;同时,在测序数据分析过程中,每次长期数据在磁盘上的导出和加载(IO)过程长达 1000 秒,随着数据集的持续增长,这种处理速度妨碍了预期的钻研发现工夫。
以后,寻因生物将单细胞测序剖析工作部署在了第三代英特尔® 至强® 可扩大处理器 (代号: Ice Lake) 和 英特尔® 傲腾™ 长久内存的阿里云 i4p 长久内存型实例上,并在实例中应用了 MemVerge 公司开发的 Memory Machine 大内存软件,岂但 齐全打消磁盘读写带来的 IO 瓶颈 ,帮忙寻因生物胜利地运行了多细胞数、大样本的测序数据分析工作,并能通过 Memory Machine 的 ZeroIO 内存快照性能使数据导出和加载从原来的 1000 秒降至 2.5 秒, 将数据读取的效率晋升了两个数量级。
阿里云 i4p 长久内存实例是基于英特尔® 傲腾™ 长久内存推出的第二代长久内存实例,傲腾® 长久内存让高性价比的大容量内存与对数据持久性的反对奇妙地联合在一起,将更多数据保留在更凑近 CPU 的中央,减速了大内存计算,能够说从新定义了传统的两级存储架构。
除根本 vCPU 和内存外,阿里云 i4p 实例还配置了长久内存资源,极大地扩大了主机的内存容量,让内存中能够寄存更多数据用于测序数据分析,同时并发运行更多的测序工作,绝对于传统一般大内存实例,i4p 长久内存实例能够帮忙用户突破“内存墙”藩篱,取得更高性能的同时,无效升高整体 IT 基础设施领有老本(TCO)。
MemVerge 开发的 Memory Machine 大内存虚拟化软件,可运行在 i4p 长久内存实例中,将其中的长久内存和一般内存进行交融,能够通明地应用大内存资源,无需对利用进行革新,即可充分发挥长久内存的全副性能;其软件的高级性能“ZeroIO 内存快照”,能够完全避免长期数据的磁盘 IO 过程,实现客户利用性能的飞跃。同时 通过阿里云计算巢还实现了 Memory Machine 大内存虚拟化软件与云平台的标准化集成 ,实现疾速的软件交付部署和标准化的运维治理, 大幅晋升了业务效率。
“这可能使咱们的单细胞数据分析业务齐全打消 IO 瓶颈,并在理论的剖析工作中将长久内存的大容量能力充分利用起来,让工作的并发能力晋升了 5 倍以上,且 该计划能让多细胞数,大样本工作能顺利地运行胜利,对进步咱们生信用户的业务吞吐能力和工作效率有十分大的助力。”寻因生物公司生物部张广鑫示意。