关于云原生:剑指企业级云原生阿里云-CNFS-如何破局容器持久化存储困境

48次阅读

共计 5250 个字符,预计需要花费 14 分钟才能阅读完成。

简介:云原生趋势下,利用容器化比例正在快速增长,Kubernetes 也已成为云原生时代新的基础设施。据 Forrester 预测,到 2022 年,寰球企业及组织在生产环境运行容器化利用。察看明天的容器和 Kubernetes 的利用现状,咱们能够看到两个广泛的景象。首先,在云上托管 Kubernetes 曾经成为企业上云及运行容器的优先选择。另外,用户应用容器的形式也在扭转,从无状态利用 到 外围企业应用 到 数据智能利用,越来越多的企业应用容器来部署生产级别、复杂度高和高性能计算的有状态利用。比方 Web 服务、内容资料库、数据库,甚至 DevOps、AI/ 大数据利用等。

作者:CNFS

云原生趋势下,利用容器化比例正在快速增长,Kubernetes 也已成为云原生时代新的基础设施。

据 Forrester 预测,到 2022 年,寰球企业及组织在生产环境运行容器化利用。察看明天的容器和 Kubernetes 的利用现状,咱们能够看到两个广泛的景象。首先,在云上托管 Kubernetes 曾经成为企业上云及运行容器的优先选择。另外,用户应用容器的形式也在扭转,从无状态利用 到 外围企业应用 到 数据智能利用,越来越多的企业应用容器来部署生产级别、复杂度高和高性能计算的有状态利用。比方 Web 服务、内容资料库、数据库,甚至 DevOps、AI/ 大数据利用等。

云原生时代,咱们如何解决海量容器的编排和存储?又该如何晋升容器存储的性能和稳定性?

容器利用趋势下的存储能力演变

随着基础设施从物理机到虚拟机,到以 Kubernetes 为代表的容器环境,甚至到 Serverless 的逐步演进,明天的计算和利用正在面临微小的变动,最显著的就是从过来利用在虚拟机里边去独占一个 CPU 内存分区,到明天在 Serverless 里演变成在函数层面去为用户提供服务。

在这样的技术体系下,存储的能力同样须要随之扭转,次要体现在以下几个方面:

1. 高密

虚拟机时代,一个虚拟机就对应一个残缺的存储空间,能够用其去存储单个利用所须要的所有数据相干的拜访和存储需要。但明天在 K8s 在 serverless 环境里的存储是共享的,一个容器须要去拜访的是一个微小的存储资源池,带来的代价就是存储的密度是十分大的,同时拜访同一个存储能力的要求也变得更高。

2. 弹性

当咱们创立一个物理机或者虚拟机时,常会在一个比较稳定的周期之内拜访和应用存储介质。但明天在容器环境里,前端计算服务的弹性伸缩变动是十分快的,可能须要霎时从数十台到几百台,因而也须要十分高的弹性存储能力。

3. 数据隔离

在 K8s 和 Serverless 里,很难做到内存和存储资源的独占,因为容器环境下存储资源、计算资源,甚至于操作系统以及一些依赖的根底包都是共享的。那这个时候就须要在基础架构层面实现一种平安的隔离,同样在下层的利用层面,也须要通过欠缺的安全策略和伎俩去实现数据隔离,这同样是十分大的变动和挑战。

容器环境下,企业须要怎么的存储能力?

块存储、文件存储、对象存储是当初比拟常见的容器存储解决方案,那么在容器环境下,企业须要怎么的文件存储能力呢?

1. 利用兼容

咱们很难疾速让企业整体的利用形式产生转变。很多场景下,企业应用存储的形式会是共享或者分布式存储集群。这时,存储对于利用的兼容能力就十分重要,能不能在容器环境和非容器环境下保持一致,让利用的革新尽可能变得更少,甚至于不须要革新,这是一个迫切重要满足的诉求。

2. 极致弹性

容器部署的一大特点须要随着业务的峰值和波谷,满足疾速的弹性需要。而当下层的计算产生弹性之后,底下的存储也须要有能力疾速跟进,而不是用消耗大量工夫去做底层数据的同步。

3. 共享

在大数据、高性能计算等场景下,利用的数据集是十分宏大的,量级动辄就是 TB、十几个 TB 的级别,有些场景甚至能够达到上百 TB。这种规格的数据如果无奈共享,而是须要去在弹性的容器环境下通过拷贝传输完同步,这对于老本的压力、对于时效性的损失,都是很难保障的。

4. 安全可靠

不论底层的基础架构如何扭转,是物理机、虚拟机、K8s 的容器还是 Serverless,无论怎么去形象,业务利用最基本的诉求肯定是平安,利用间不能互相净化。因而存储就必须在数据共享能力之上,为数据安全提供保障。

5. 优化老本

企业对于老本优化的谋求,在所有的利用场景里简直都是手不释卷的。即便是在最外围的利用场景里,咱们仍然须要去管制老本。因为明天业务的增长和变动是十分迅速的,数据的增速也是飞快的。怎么在数据快速增长的同时里兼顾老本的优化,也是对存储十分大的一个挑战。

阿里云容器网络文件系统 CNFS

针对容器中应用文件存储的劣势和挑战,阿里云推出了容器网络文件系统 CNFS,内置在阿里云托管的 Kubernetes 服务 ACK 中。CNFS 通过将阿里云的文件存储形象为一个 K8s 对象(CRD)进行独立治理,包含创立、删除、形容、挂载,监控及扩容等运维操作,使用户能够在享受容器应用文件存储带来的便捷的同时,进步文件存储的性能和数据安全,并提供容器统一的申明式治理。

CNFS 在弹性伸缩、性能优化、可拜访性、可观测性、数据保护、申明式等方面针对容器存储进行了深度优化,使其与同类计划相比具备以下显著劣势:

  • 在存储类型方面,CNFS 反对文件存储和对象存储,目前反对阿里云的 NAS、CPFS、OSS 云产品
  • 反对 Kubernetes 兼容的申明式生命周期治理,能够一站式治理容器和存储
  • 反对 PV 的在线扩容、主动扩容,针对容器弹性伸缩个性优化
  • 反对更好的和 Kubernetes 联合的数据保护,包含 PV 快照、回收站、删除爱护、数据加密、数据灾备等
  • 反对利用级别的利用一致性快照,主动剖析利用配置和存储依赖,一键备份、一键还原
  • 反对 PV 级别监控
  • 反对更好的访问控制,进步共享文件系统的权限平安,包含目录级 Quota、ACL
  • 提供性能优化,针对文件存储的小文件读写,提供微秒级性能优化
  • 老本优化,提供低频介质及转换策略,升高存储老本

典型应用场景及最佳实际

1. 极致弹性的容器利用场景

以互联网和大型金融服务类突发利用为例,这种场景下具备须要在短时间内弹性扩容大量的容器,对资源弹性伸缩有较高的能力要求的特点,因而容器存储需具备通用的弹性和疾速伸缩能力。这类场景典型的利用包含:媒体 / 娱乐 / 直播、Web 服务 / 内容治理、金融服务、游戏、继续集成、机器学习、高性能计算等。

在这个场景中,Pod 须要灵便的挂载和卸载存储 PV,存储的挂载须要匹配容器疾速启动,并且存在大量文件 I /O;当海量的长久化数据快速增长,存储老本压力也会比拟大。倡议应用 ACK+CNFS+NAS 的组合,联合 CNFS 能够做到以下优化:

内置文件存储类,在短时间内可启动数千个容器,并毫秒级挂载文件存储 PV
内置文件系统 NAS,能够为海量容器提供共享读写能力,疾速实现容器利用 / 数据高可用
针对低时延和小文件的优化,实现微秒级读写性能,解决容器高并发拜访对文件存储性能的要求
提供文件存储生命周期治理,主动冷热分级,升高存储老本

2. AI 容器利用场景

当初有越来越多的 AI 业务在容器中进行训练和推理,云上海量的基础设施和 IDC 联合的形式也为 AI 提供了更灵便的算力调度。当 AI 业务在云上进行训练和推理时,利用的数据集是十分宏大的。比方在主动驾驶畛域,数据集能够达到 10 个 PB 甚至于超百 PB 的规模,在如宏大的数据量下做 AI 训练,又须要保障训练的时效性,使容器 AI 次要面临以下挑战:

  • AI 的数据流简单,存在存储系统的 IO 瓶颈;
  • AI 训练、推理须要高性能的计算和存储;
  • AI 算力协同,云和 IDC 资源 / 利用 须要对立调度

针对这个场景,倡议应用 ACK 纳管集群 +CNFS+ 文件存储 NAS/CPFS 的组合,次要能够取得以下优化:

  • 优化的文件存储 NAS 读写性能,提供高性能共享存储,与 AI 场景完满匹配,反对海量小文件拜访,减速 AI 训练、推理性能
  • 适配了容器环境的 GPU 云服务器、裸金属服务器(神龙)等计算集群,提供超高吞吐和超高 IOPS 能力;CPFS 还可反对云上 / 云下混合部署
  • ACK 纳管集群,反对 ACK 纳管 IDC 自建的 Kubernetes 集群,云上 / 云下造成对立的资源池,异构资源 / 利用对立调度,最大化的利用云上海量基础设施的计算劣势

3. 基因计算利用场景

当初基因检测技术曾经逐步走向成熟,并且在很多医院里缓缓被引入,通过对患者基因的测量更加精准、疾速地解决简单病症。对于咱们每一个,基因的采样数据者是十分宏大的,动辙都是几十个 GB。而在进行某类定向的基因剖析时,只有集体的样本是远远不够的,可能须要采集十万甚至百万个样本,这对容器存储会带来十分大的挑战,包含:

大规模样本的数据挖掘须要海量计算资源和存储资源,数据增长快,存储费用高,治理艰难。
海量数据须要疾速、平安的散发到国内多地,多数据中心须要共享拜访
批量样本解决工夫长,性能需求高,资源需要峰谷显著,难以布局

针对基因计算的场景,倡议应用 ACK+AGS+CNFS+ 文件存储 NAS+OSS 的组合,来解决以下问题:

  • NFS 内置的文件存储类,能够疾速搭建极速、低成本、高精度的基因计算容器环境,满足基因测序计算和数据共享需要
  • CNFS 反对对象存储 OSS 类型的 PV,能够保留下机数据和组装后数据以及剖析后果数据,用于数据的散发、归档、交付,保障 海量用户同时上传、下载数据,进步数据交付效率。同时提供海量存储空间,同时通过生命周期治理,将冷数据归档存储,升高存储老本
  • AGS 针对基因计算的热点数据进行 GPU 减速计算,性能相比传统模式进步 100 倍,疾速升高基因测序的工夫和老本

当然,除上以上三种典型代表,CNFS 在很多场景下都能够为业务提供容器和存储联合应用的深度优化计划。欢送大家通过文档理解:https://help.aliyun.com/docum…

案例:应用 CNFS 和文件存储构建现代化企业应用

通过与 CNFS 的 深度集成,阿里云文件存储 NAS 曾经成为容器存储最现实的解决方案。上面通过几个实在的客户案例,帮忙大家更间接地理解如何应用阿里云容器服务 ACK 和文件存储构建现代化企业应用。

视频服务

百家云是全国当先的一站式视频服务提供商。疫情期间,百家云流量暴涨,业务量短时间内增长了数十倍,如此迅速扩容须要在客户无感知的状况下实现;另外,百家云业务场景大量读写需要,同时计算集群程度扩容 4 个集群,在录制转码的过程当中,原有存储系统遇到 IO 瓶颈,对于百家云大流量、高并发的解决能力是个严峻考验。

这里对存储提出的要求包含疾速适配容器利用的弹性伸,以及缩之后须要疾速的数据拜访。最终,通过阿里云容器服务 ACK 和文件存储 NAS 的联合,优化容器集群架构,实现了在 3 天内弹性扩容 10 倍资源。

文件存储 NAS 按需弹性扩大,基于容器服务 ACK 自动化定时伸缩,短时间内启动数千个容器,能够完满适配容器利用的弹性。采纳文件存储 NAS,提供规范的拜访接口兼容支流转码软件,轻松挂载编辑视频工作站。百家云的 K8s 集群对性能要求极高,通过高性能 NAS 服务,能供提供最高 10GB 大吞吐,解决了 IO 瓶颈,完满应答百家云大流量、高并发的场景,保障疫情期间直播录制业务顺利上线。

主动驾驶

第二个案例是汽车行业的典型客户,该客户是中国当先的智能汽车制造商,也是交融互联网和人工智能前沿翻新的科技公司,其产品搭载了多项人工智能技术的服务,如语音助手、主动驾驶等。

该企业面临的问题是在主动驾驶场景下,训练素材通常是上亿的 100KB 的小图片,总量高达上百 TB,训练过程中,GPU 通常须要重复随机拜访训练集中的一部分图片,须要文件系统提供高 IOPS 的文件拜访能力,从而减速训练过程;大规模存储系统稳定性以及性能无奈随规模进行线性扩大;并且随着存储资源急剧增长,也带来了老本高、运维治理简单等问题。

通过采纳阿里云文件存储,完满撑持了该客户的智能驾驶的高性能计算平台,最终随机拜访小文件训练速度进步了 60%;文件存储在集群中的多个数据节点,多个客户端同时拜访,反对并行扩大;并且阿里云文件存储反对多级存储数据流动,大大简化了主动驾驶数据采集、传输、存储的流程。

基因计算

最初是来自基因计算场景的案例,该客户是寰球当先的生命科学前沿机构。客户面临的问题:数据增长快,以后存储无奈满足容量和性能线性扩大需要,基因计算性能遇到 IO 瓶颈;大规模样本数据存储费用高,治理艰难。

通过应用容器集群挂载文件存储 NAS 高性能计算基因数据分析中的共享存储,保留下机数据和组装后的数据,以及过程中的两头数据,为该机构提供了低延时、高 IOPS 的容器存储能力,存储性能由 1GB/s 晋升至 10GB/s,实现数据 12 小时端到端解决实现,包含数据上云,后果下云散发。

文件存储 NAS 提供弹性扩大和高吞吐量的带宽,依据每次业务规模不同,NAS 按需分配容量并且提供与之匹配的带宽,既满足了业务弹性的需要,又节俭 TCO;文件存储 NAS 通过对立的流程、对立的资源调度云上和云下的异构计算资源,低成本且高效地实现基因计算工作。

原文链接

本文为阿里云原创内容,未经容许不得转载。

正文完
 0