关于存储:YRCloudFile-分布式存储加速基因测序-解锁生命密码

55次阅读

共计 3040 个字符,预计需要花费 8 分钟才能阅读完成。

生物信息学(Bioin formatics)是在生命科学的钻研中,以计算机为工具对生物信息进行贮存、检索和剖析的迷信。它是当今生命科学和自然科学的重大前沿畛域之一,同时也将是 21 世纪自然科学的外围畛域之一。其钻研重点次要体现在基因组学(Genomics)和蛋白质组学(Proteomics)两方面,具体说就是从核酸和蛋白质序列登程,剖析序列中表白的构造性能的生物信息。生信钻研次要是围绕 DNA 开展的,次要内容波及:基因组装、基因预测和功能分析、比拟基因组和进化、转录组和表白剖析、全基因组关联剖析、生物信息学工具开发等。

随着以后科学技术的倒退和人们迷信认知程度的进步,基因测序技术逐步拓展,至今已倒退到第三代,基因检测技术曾经能够通过基因组信息以及相干数据系统,预测罹患多种疾病的可能性。这个过程中,信息技术的推动起到了至关重要的作用。基因测试的剖析过程,实质上是大量样本数据进行替换和比对的过程,而样本库的数据量间接影响了基因测序的剖析品质。当初阻滞生物技术进一步遍及的瓶颈未然不是生物技术自身,而是信息技术的倒退。

基因测序是一个典型的巨量数据驱动的行业,数据的收集、存储、剖析成为生命科学的核心主题。基因测序产生的微小数据量,对数据存储提出了严苛的挑战,基因测序行业亟需大规模的高性能存储系统,零碎的易用性、数据的安全性以及数据读取的性能显得至关重要,唯有如此能力满足其业务需要,基因测序能力最大水平为人类发挥作用。

基因测序全链路场景数据特征分析

基因测序全链路数据流分为样本采集、样本解决、高通量测序、下机数据拆分、拆分数据生物学剖析和可视化报告这几个场景。数据从测序仪下机开始到数据拆分再到拆分数据做生物学剖析,不同阶段业务场景所面临的数据规模和存储需要存在差别,具体如下:

  • 测序仪下机数据通常以海量的大文件为主,数据规模在几百兆到几个 GB 之间;随着高通量测序仪的宽泛应用,单台测序仪的下机数据可达 10TB 以上;在海量数据规模场景下,对数据存储的扩展性要求很高,在不影响业务的前提下须要迅速扩容;
  • 下机数据往往以图片的模式寄存,为了便于后续的生物学分析阶段可读,往往须要采纳大量的算力来对数据进行拆分整顿,拆分后的数据分为两大部分,以样本拆分数据和解释阐明文件两类为主,即以大小混合文件为主的数据模式;
  • 拆分后的数据在基因测序行业是一个半成品的产品,不具备可读性,在后续的流程中,客户通常会抉择搭建一套高性能的并行文件存储 + 高速的网络环境(IB 或者 roce)以及弱小的算力平台来组建生物学剖析平台来作为做数据分析的撑持;

海量基因数据存储和解决难题

基因测序行业正以前所未有的状态生产、存储与治理着数据信息,海量原始基因数据通过剖析和解读能力转化为有价值资源,这使得基因测序行业面临着严厉的存储挑战,数据存储难点次要是以下几点:

  • 存储并发 IO 性能瓶颈

基因测序钻研核心须要全力晋升数据的处理速度,如果后期剖析钻研阶段破费太多工夫,就会相应地缩短前期临床实践的过程。因而,晋升基因数据处理和剖析的速度是以后最重要的课题。在减速数据处理的同时,客户 IT 团队须要满足钻研团队高效并行拜访海量基因数据的需要。强劲的 CPU 算力和高效的算法诚然能够保障平台的计算性能,但一般传统的存储系统却难以满足基因测序、基因剖析等高频和高效的数据拜访和解决需要。

  • 可靠性需要

海量数据管理利用的可靠性需要也是一个不可漠视的需要,基于基因数据分析,设施会继续运行很久的工夫,所以长时间大并发的 IO 读写性能和稳定性就显得尤为重要。生物学剖析往往会通过比照源生物信息产生大量的后果数据,存储须要对海量的数据妥善保留,且提供高性能的并行文件存储放弃下层生物数据分析计算,底层的存储系统在数据的治理上须要更加便捷。

  • 对 GPU 高并发性能的需要

生物学剖析波及大量 GPU 的业务需要存储提供极高的带宽和 IOPS 能力,测序仪下机数据在无限的带宽能力和反对的并发能力难以承载大量的下机数据,拆分数据阶段波及大量的 GPU 算力,面临高并发的数据拜访对海量的混合文件进行读写操作。即在对基因数据进行剖析的时候,GPU 算力的加持能大大缩短疾病危险检测或确定医治计划的工夫。海量的数据规模,大量的算力需要,对于反对算力业务倒退的存储提出了更高的要求,高吞吐、高 IOPS、低延时的需要很明确。

某客户是一家专一于分子诊断我的项目及衰弱治理的高新技术企业,致力于为医疗机构、行业合作伙伴及公众提供全方位、个体化、精准化的基因检测服务和衰弱治理解决方案。平安存储大规模基因数据,妥善治理海量数据,高效进行基因数据分析、解决和计算,疾速调用无效数据进行利用剖析等成为该客户最为关注及器重的问题。

焱融海量数据高性能存储计划

为生信基因测序减速

焱融科技作为一家数据存储服务的高新技术企业,采纳分布式存储架构为用户及利用提供高效的数据存储和治理服务,为该客户提供了在 AI+ 大数据时代下生物医学畛域在海量数据场景下的高性能存储计划。

计划拓扑图

海量数据反对

  • YRCloudFile 提供规范的文件接口和拜访协定及公有客户端,公有客户端采纳独特的 IO 流程优化和并发 IO 解决,通过更简化的 IO 流程,更高效的通信形式来应答高并发的 IO 读写。在大规模高并发业务场景下,能提供海量数据并发拜访的存储读写需要。
  • YRCloudFile 分布式文件系统采纳分布式架构,数据及元数据节点可按需扩大,达到容量与性能均线性增长的能力。满足生信行业宏大且简单的所有业务倒退带来的数据扩大问题。惯例业务状况下,几台乃至十几台存储即可满足一个大规模我的项目的存储要求,几百 TB 到几十 PB 乃至是数百 PB 的数据存储量。

极致性能

  • YRCloudFile 可兼容高性能网络,可能反对最高 400Gb 的 IB 网络,提供超高的带宽能力;集群内单存储节点性能可达 200 万 IOPS 性能,40GB/s 带宽。
  • 国内首家反对 NVIDIA GPUDirect Storage(GDS)性能,实现以间接内存的存取形式将数据传输至 GPU,显著升高 I/O 提早,晋升数据带宽,充沛开释 GPU 算力,将性能施展到极致。
  • 兼容不同的网络环境,反对不同的网络立体,特地是对 IB 网络和以太 roce 的反对,无效地满足了海量的非结构化混合文件数据读写性能,进步 GPU 读写拆分数据的效率。
  • 在海量小文件场景下,YRCloudFile 分布式文件存储依靠于分布式元数据横向扩大架构、虚拟目录、动态子树和目录 Hash 等技术,在 0~100 亿级别的海量文件背景下,文件操作性能以及文件的读写性能安稳。

治理便捷

  • 焱融科技开发的 智能数据加载 Dataload、冷热数据分层等性能可实现冷热数据主动拆散,区别于传统备份零碎,YRCloudFile 实现无人值守,数据分流采纳 YRCloudFile 自主治理,对业务通明,随时可拜访。
  • YRCloudFile 采纳“软件定义”架构,将以往存储系统依赖硬件实现的性能通过软件实现,将存储系统与存储硬件解耦,实现存储硬件通用性,硬件不再应用定制化,而是采纳市场支流的通用 X86 服务器亦或是 ARM 国产化硬件,让客户具备硬件选择权,硬件保护简略。

通过焱融高性能分布式文件存储系统的高灵便和高可扩展性满足了基因测序行业客户一直增长的业务需要,实现了计算资源和数据资源的齐全通明无缝扩大,提供高效的存储效率和并行能力,为基因测序平台提供了高效、稳固、牢靠的撑持,让客户更多地关注业务能力,施展数据的价值,让其更好地通过基因测序服务社会,以技术驱动“精准医疗”的倒退。

正文完
 0