共计 3693 个字符,预计需要花费 10 分钟才能阅读完成。
1、基因行业背景
1.1. 中国基因市场剖析
基因组学是将来精准医疗的“基石”。70% 的基因企业抉择应用云计算来解决基因组相干业务。过来一年内,阿里云为基因医学影像数据提供了安全可靠的存储,500% 数据增长,增长迅猛。弱小无限度的计算能力,阿里云撑持了百万以上的基因样本数据分析工作。
2. 基因行业的存储痛点和需要剖析
2.1. 基因组学数据管理绝对简单
一家大型基因测序性能公司每日会产生 10TB 到 100TB 的下机数据,大数据生信剖析平台须要达到 PB 级别的数据处理能力,这背地须要生物科技和计算机科技的双向撑持。测序利用从科研逐渐走向临床利用,计算模式从离线向在线演进,交付效率越来越重要。多变的数据处理流程,以及大量的生物信息软件版本的治理,大量排队的数据处理工作,因为生物信息软件的运行个性 CPU 均匀利用率依然有余,难以无人职守的解决失败工作,老本居高不下等等问题存在于以下的现有的零碎中,催生了生物信息行业对云计算和云原生技术的拥抱姿势,在老本,弹性,效率,规模也提出了更高要求。
从基因业务角度了解,基因行业的数据处理的次要需要是晋升效率,降低成本。基因场景的数据传输要求高速、稳固。如下图所示,是基因业务的数据处理流程图。
典型的基因行业数据传输与交付场景如下:• 测序服务商海量数据上云,数据上云有多重路径,通过 OSS 工具、存储网关、闪电立方等。个别 1PB 数据离线迁徙,最快 1 周上云。• 科技服务公司:企业客户数据交付。数据交付,告诉杭州到上海,同账号的跨地区复制的数据交付,在线迁徙服务,实现跨地区、跨账号交付。杭州传到寰球拜访,寰球拜访减速。杭州传到企业用户,基于阿里云 ram 子账号,企业客户本人账号零碎的交付体系。• 样本数据保留进行高吞吐剖析计算,对存储要求高吞吐、高 IOPS,对计算资源要求弹性、横向扩大。• 科研院所剖析后果实现寰球数据散发疾速,个别每天交付 19TB 数据,寰球 14 个数据中心保障疾速就近交付。• 剖析后果长期保留归档,要求高性价比、高可靠性。
2.2. 典型的基因行业的数据存储痛点
1、数据存储:数据增长快,存储费用高,治理艰难;长期保留数据可靠性难以保障;须要寻求低成本大数据量的数据压缩形式;元数据管理凌乱,数据清理艰难。
2、散发共享:海量数据须要疾速、平安的散发到国内多地及海内;传统硬盘寄送形式周期长,可靠性低;多地核心数据须要共享拜访。
3、计算剖析:批量样本解决工夫长,资源需要峰谷显著,难以布局;大规模样本的数据挖掘须要海量计算资源,本地集群难以满足;计算工作流流程迁徙艰难、线上线下调度艰难、跨地区治理艰难;线下弹性能力差,按需计算需要。
3、阿里云基因容器存储解决方案
阿里云上的基因行业的容器存储解决方案架构如下:
阿里云基因文件存储解决方案阐明:
• 基于 AGS/ACK 工作流搭建极速、低成本、高精度的基因测序的容器计算环境,依据业务需要,按需弹性提供计算资源,解决业务高峰期排队问题的同时,进步资源利用率。
• 文件存储能够对接容器基因计算环境,满足基因测序的计算和数据共享需要:
• NAS 为基因行业用户提供低时延、高 IOPS 的文件存储,用于基因数据分析中的共享存储,保留下机数据和组装后的数据,以及过程中的两头数据。
• NAS 计算结果数据会同步到 OSS 存储,文件存储集成 OSS 提供海量存储空间,同时通过冷数据归档存储,升高存储老本。保留测序仪下机数据和组装后数据以及剖析后果数据,用于数据的散发、归档、交付。保障 10000+ 用户同时上传、下载数据,进步数据交付效率。
阿里云整体解决方案在基因行业的劣势:
• 生态闭环:70% 的基因行业客户都在阿里云上,包含 100% 的测序工厂头部客户跟阿里云有高速专线,基因数据在阿里云上各个基因客户之间高速流动;
• 产品成熟:K8S、ACK、AGS、OSS、NAS 等产品都曾经商业化多年,在基因行业客户失去宽泛应用。比照友商,咱们的产品稳固,功能丰富,性价比高;
• 行业老兵:服务基因行业多年,深刻了解客户的业务场景和痛点,针对性的解决了数据上云、数据分析、数据交付的问题,给客户提供端到端的解决方案;
• 全球化:借助阿里云寰球基础设施以及跨境高速通道,帮忙客户拓展海内业务。
阿里云文件存储解决方案在基因行业的劣势:
• 扩大能力强:集群最大规模反对近万个节点,容量可达数十 PB 规模;便于基因海量数据的性能降级和容量扩大。
• 性能能力强:帮助客户应用高性能文件存储;无力撑持基因业务增长带来的大容量和高性能需要;大大提高海量数据疾速散发和基因计算剖析效率。
• 更经济:通过阿里云文件存储服务构建基因测序高性能工作负载;没有一次性老本投入或简短的洽购周期,享受按需付费、更经济的基础设施资源。
• 灵便麻利:阿里云高性能文件存储服务,与 ACK 等计算集群整合,反对集群间接挂载文件系统;多种产品选型:通用型 NAS、CPFS 公共云及 CPFS 一体机,满足不同基因用户性能、老本、多云部署需要;灵便售卖形式,资源弹性伸缩,按需购买;反对云下和云上整体解决架构,既提供线下固定资产输入计划,满足对数据存储管理和基因业务高性能的双重要求,也提供疾速数据上云的计划。
• 数据生命周期治理:反对数据智能流转至低频节约老本;反对集成 OSS,实现数据计算、散发、归档、交付的智能数据流转;智能数据冷热分层,同时满足基因疾速高效计算和海量基因数据老本优化需要。阿里云文件存储解决方案用户收益:
• 麻利,按需应用,弹性扩大• 超高性能存储进步基因计算的高性能和效率
• 数据冷热分层,降低成本
4、基因行业容器文件存储介绍
阿里云文件存储 NAS 为非结构化数据提供存储服务。随着云原生的疾速倒退,许多公司的容器化应用程序应用 NAS 存储数据,有些甚至存储 PB 级数据。阿里云在云原生布局上提供容器 K8s 服务(ACK)、弹性容器实例(ECI)、容器服务 ACK/ASK,容器实例应用 NAS 文件系统作为长久化存储。容器存储离不开共享文件存储。通常,彼此共享数据的容器天然须要共享文件存储,长期运行的容器也可应用共享文件存储应答故障。阿里云文件存储同时满足容器利用场景对长久化存储弹性伸缩、灵便挂载、高性能的需要。此外,容器镜像的配置文件或初始加载数据存储能够在 NAS 文件存储上实现共享,在容器批量加载时实时读取,多 POD 间通过 NAS 共享长久化数据,在 POD 故障时能够进行故障切换。阿里云 NAS 是容器存储的自然选择,因为它是一种齐全托管的服务,配置简略,增加或删除数据时主动扩大,和容器基础架构一样灵便便捷。它还能够扩大到每秒数 GB 的吞吐量以及每秒数万的 IOPS。它基于 POSIX 文件接口,提供 NFS / SMB 协定,人造适配原生操作系统,提供共享拜访,同时保证数据一致性和锁互斥。文件存储中的数据在可用区内以多正本冗余形式存储,防止数据的单点故障危险。
文件存储目前包含三款产品,别离是通用型 NAS、极速型 NAS 和 CPFS 并行文件存储,为企业应用、大数据处理、小文件存储、高性能计算等场景提供全方位解决方案。理解更多阿里云文件存储
阿里云文件存储次要具备以下个性:无缝对接容器存储插件,简化的云原生体验 :
文件存储基于 POSIX/NFS/SMB 文件接口,现有利用无需任何革新,可间接从本地磁盘平滑迁徙至文件存储。针对容器编排,文件存储提供了 CSI、Flexvolume 存储插件,简化部署和应用,领有残缺的云原生体验。
共享长久化数据,故障灵便切换 :
文件存储具备多节点共享拜访能力,文件存储还能够在不同可用区(不反对跨地区)、不同 VPC 之间共享。多 Pod 间通过 NAS 共享长久化数据,在 POD 故障时能够进行故障切换。对立的名字空间,对立的治理形式。弹性文件系统无需扩容缩容,0-10PB 齐全按量。
高性能减速,在容器批量加载时实时读取 :
文件存储基于分布式存储架构,具备性能程度扩大能力。提供不同类型、不同规格存储产品,充沛满足各类利用的吞吐、提早、IOPS 和小文件等性能需求。文件存储反对 us 时延,数十 GB 吞吐,减速存储拜访,晋升利用性能,在容器批量加载时实时读取数据,撑持有状态利用、AI 数据智能利用。
企业级利用个性,Pod 存储安全可靠 :
文件存储反对正本、纠删码技术,同时通过备份、快照提供残缺的数据保护和复原机制。反对传输、落盘加密,确保数据不会被任何人窃取和篡改。对立命名空间反对海量 pod 存储隔离和对立治理。
长久化数据生命周期治理,优化老本 :
文件存储提供按量付费模式,您只需为正在应用的存储空间付费,不须要提前配置存储,并且不存在最低费用或设置费用。借助文件存储的共享能力能够节约大量的冗余数据拷贝和同步费用。数据生命周期治理,反对冷热分层,主动归档冷数据,降低成本 90%。
本文作者:孟威
本文为阿里云原创内容,未经容许不得转载。