关于运维:阿里云田涛涛高效智能的云CloudOps让运维更简单

45次阅读

共计 5679 个字符,预计需要花费 15 分钟才能阅读完成。

简介:CloudOps: 以利用为核心的自动化运维新趋势

12 月 21 日,在阿里云弹性计算年度峰会上,阿里云弹性计算体验与控制系统负责人田涛涛发表了主题为《高效智能的云,CloudOps 让运维更简略》的演讲,深度解读了云上运维新趋势 CloudOps,并具体介绍了阿里云 CloudOps 自动化运维套件的新产品。


阿里云弹性计算体验与控制系统负责人田涛涛

本文次要依据田涛涛的演讲整顿成文,内容分为三局部:

  • 从 Ops in Cloud 到 CloudOps;
  • 以利用为核心的自动化运维;
  • CloudOps(云上自动化运维)白皮书公布。

01 从 Ops in Cloud 到 CloudOps

1、DevOps 落地实际的痛点

DevOps 从提出到当初曾经有 12 年了,很多企业曾经开始践行 DevOps,并且获得了十分好的胜利。然而,企业在 DevOps 落地实际过程中遇到了不同的挑战:

◾ DevOps 转型前:很多企业会发现不足 DevOps 专家;DevOps 的投入初期十分重,须要组织变革与调整;外部工具能力弱,随着业务倒退,很多 DevOps 工具曾经不可能满足企业的需要。

◾ DevOps 实际过程中,关注点会产生转移:组织效力方面,更加关注如何实现高效敏捷地交付;在架构设计方面,关注如何理清架构之间的依赖关系,疾速地交付利用,做异地或者多活迁徙;自助服务方面,越来越多的企业抉择应用自助服务,依据 Gartner《中国 DevOps 考察钻研报告(2021 年)》,到 2025 年会有 75% 大企业将自助服务看作 DevOps 利用最重要的趋势。

◾ DevOps 演进趋势上,越来越多的 DevOps 企业都抉择了应用智能化的决策能力,包含评估 DevOps 能力成熟度。

2、DevOps in Cloud 趋势

联合企业上云的趋势,越来越多的企业曾经开始在公共云上应用 DevOps,这个过程中须要做利用的云化革新和适配,同时联合云原生的工具和工作流程编排,晋升交付的效率。

在进行云上 DevOps 的实际过程中,很多的企业实现了微服务架构的革新和分布式应用的降级,同时服务治理也越来越成熟,但这个形成带来的利用激增和依赖复杂度晋升也为企业应用的可察看性和零碎的稳定性带来极大的挑战。

在 DevOps 的云上转型过程中,很多企业也给本人的巨石利用做了服务化的革新。并且简直所有的企业都认为,凋谢的 API 和 As-Service 是企业凋谢和服务化的外围竞争力。

3、云上运维新趋势 CloudOps

基于以上这些 DevOps 在云上的趋势,阿里云弹性计算定义了 CloudOps 的模型,联合 DevOps 和云的双重劣势能够从老本、交付速度、灵活性和系统可靠性四个维度来看:

◾ 降低成本:DevOps 通过组织效力的改革、数字化工具的建设,能够大大降低老本,而云能够通过按需资源弹性以及多种资源选型和付费形式来升高资源和人力的老本。

◾ 交付效率:DevOps 能够实现 CI/CD,而云能够实现秒级或者分钟级的资源交付。

◾ 灵活性上:用户对于利用的研发上线周期提出了更高的要求,比方 7 天交付一个 APP,从 0 到上线至利用商店;而云同样能够帮忙客户实现多种多样的基础设施的资源疾速交付。

◾ 可靠性上:DevOps 践行了自动化的理念,而云人造提供了基础设施的高可用。

从利用高可用,到技术资源高可用,以及零碎的监控和洞察能力,DevOps 和云是一个十分好的组合,因而在云上提出了一个新概念 CloudOps,充沛联合云和 DevOps 的长处,实现 1 +1>2 的成果。

02 以利用为核心的自动化运维

CloudOps 的核心理念是以利用为核心,因为只有利用才是客户最关注的。

一个利用从构建到交付的整个生命周期中,客户的关注点会发生变化:首先是利用的构建交付,如何实现主动麻利交付;交付实现后,客户会关注零碎的可靠性;一个能够疾速晋升可用性的策略就是弹性,联合弹性以及高可用计划来实现零碎架构的降级;随着利用的在线,客户也逐步关注利用公布后的平安合规和审计工作;而当利用的规模变得更大时,客户就会关注老本,实现一个继续的迭代和降级欠缺的循环过程。

1、利用自动化三部曲

自动化是系统升级革新的根底,利用实现自动化包含几个大的局部,其中最次要的是:基础设施的自动化、运维自动化、服务自动化。

  1. 基础设施自动化:在过来一年工夫里,阿里云公布了十分多的产品来简化基础设施自动化。很多公司和企业开始实现自动化,然而它的问题是自动化模板基于客户实现运行的,明天阿里云能够让这些模板不做任何批改,间接交给咱们的引擎就能够执行。同时,越来越多的企业不太违心应用 JSON 或者 YAML 来定义本人的基础设施,而咱们明天公布的新产品 ROS CDK 能够很好地解决这个问题。

此外,为了简化自动化的交付,还提供了资源迁徙工具、镜像的自动化构建性能,客户能够像构建一个容器镜像一样构建一个 ECS 的镜像。同时,咱们会定义镜像族系,让用户永远像应用容器镜像一样能够主动抉择最新的版本,而不须要更新配置文件。

  1. 运维自动化方面:咱们的运维编排 OOS 凋谢了工作市场,把积攒的十分多的最佳实际和工具收费公布在工作市场中,用户能够去集成应用;同时,为了构建不便的关联多种利用,咱们也公布了利用治理。
  1. 服务自动化方面:咱们始终把客户可能自助发现问题、排查问题、解决问题作为咱们最次要的致力方向。

2、新产品:ROS Resource Migration

先介绍第一个产品——ROS Resource Migration,很多人都感觉,IaC(Infrastructure as Code)十分好,但在实际过程中挑战十分大。首先写出 IaC 的模板十分难,它须要十分多、非常复杂的畛域常识和对脚本语言的了解;另一方面,模板写完后,随着利用架构降级,须要继续的更新模板来反映最新的基础架构。

为了解决这个问题,阿里云提供了新的计划,用户能够通过阿里云的标签性能,在打完标签后,咱们的 ROS 零碎会主动剖析标签的依赖关系,帮用户构建一套 IaC 的模板。也就是说,用户齐全能够不理解 IaC,也不必去写 JSON 和 YAML,阿里云会自动化地生成模板。模板生成后,用户能够十分不便地实现在多可用区、甚至多账号、多地区的部署,会大大降低之前构建一套基础设施模板的复杂度。同时,当用户写完模板后,还能够通过智能化的模板配置和定义,保障用户模板的部署成功率。

3、新能力:ROS 的云开发套件 ROS CDK

最近几年,咱们发现很多企业都十分心愿可能拥抱 CloudOps,然而他们不喜爱 JSON 和 YAML,为此阿里云往年也公布了新能力——ROS 的云开发套件 ROS CDK(Cloud Development Toolkit)。

它能够应用高阶的语言(如 JAVA/Python 等),像写脚本一样间接生成 ROS 模板,而后通过 ROS 模板再生成用户的根底资源设施。总结起来就是能够抉择本人的开发语言、本人相熟的编程模型,高效的实现 Infrastructure as Code。

4、新工具:利用治理

为了简化利用的构建,阿里云公布了利用治理。利用治理非常简单,只须要抉择一个标签或者导入已有资源,能够疾速构建一套利用。有了利用视角之后,它能够是跨多产品的,帮用户去做自动化的运维、监控、公布和 CI/CD,大大简化了整个运维过程、升高了老本。

另外,利用里最大挑战是利用降级,包含补丁治理、操作系统配置管理等,基于利用视角,咱们帮用户做利用视角的分组,极大升高应用利用的门槛。

◾ 利用可靠性能力上:在利用构建实现之后,其实最大的挑战就是可靠性能力。阿里云在基础设施上提供了弱小的利用可靠性能力,比如说多地区部署、多可用区部署。

◾ 弹性容错能力方面:咱们构建了智能预测,它能够依据用户过来对这些资源的使用率和操作,动静举荐须要的资源;为了透明性,咱们也凋谢了 ECS 事件体系,能够模仿一台物理机宕机或者磁盘 I /O hang 机型基础设施的容错演练;同时提供了利用高可用服务,能够模仿流量防护、故障演练等,大大晋升零碎之间的容错能力。

◾ 可观测能力构建上:咱们有包含云监控、SLS、ARMS、Xtrace 等产品,能够提供从根底资源到利用再到日志的全链路观测,以保障系统的可靠性。

◾ 数据的备份和复原:咱们提供了极速快照能力,能够秒级的实现快照创立。它使得用户进行操作变更的时候十分平安,不必像以前一样,须要等很长时间能力做成一个快照。因为应用快照有肯定老本,咱们做了一个新的服务,叫做快照保留周期,用户能够将不必的快照主动地归档或删除,升高应用快照的老本。

5、平安与合规能力建设

平安 & 合规能力也是阿里云和弹性计算根底能力,在根底平台(如网络安全和零碎审计能力)和利用平安两个方面之外,咱们明天提供了更多的能力。

当用户操作平安组,有不合规的端口变更之后,零碎会主动向用户收回正告,帮忙监控这些不合理的变更,防止零碎危险;利用平安外面,除了云平安核心以外,操作系统的管控通道平安,也是咱们始终关注的重点。

很多人运维 ECS 的时候,喜爱用 SSH/RDP 来登录服务器进行操作,阿里云提供的云助手,咱们凋谢了根本的 API,像一个浏览器申请一样,用户能够间接在客户端进行主机端的操作。不少用户反馈说,这个操作不像 SSH 一样便捷、不敌对,所以咱们公布了新性能——Session Manager。

通过 Session Manager,不须要用户名明码能够间接实现对主机的管控,同时能够将它集成到已有的零碎里,从而实现无密钥的登录、鉴权、操作和审计等操作。

此外,往年咱们还公布了新性能——高危命令拦挡,当用户执行高危命令,都能够拦挡到,同时把用户的操作退出到回放日志。当用户执行高危操作的时候,通过 Workbench 进行录屏,录屏传到 OSS 上,从而能够大大晋升咱们的安全性及可审计通道的可靠性。

利用视角里,用户十分头疼就是判断两个 ECS 之间的配置到底有什么差别,为什么有的机器有问题、有的机器没有问题。之前用户想剖析这个问题是十分难的,通过 ECS 的实例配置清单,咱们会把诸如 Windows 的注册表、配置等信息,帮用户对配置信息进行快照,快照实现之后主动剖析,剖析两台机器之间的差别,这样的话用户能够疾速地找到这两台机器的差别,大大降低排查问题的工夫。

咱们始终在谋求配置管理的集约化,咱们公布了 ECS 的密钥参数治理,客户能够把利用的参数对立到 Parameter Store 进行治理,它原生反对了资源编排、云助手、运维编排等多个产品,这样就能够防止参数配置时没有进行集约化治理产生的问题。同时,应用 Parameter Store,也反对用户做参数审计。

通过以上新能力,能够大大简化 ECS 操作方面的运维复杂度、提供平安的通道以及实现配置集约化治理。

03 CloudOps(云上自动化运维)白皮书公布

1、DevOps in Cloud ≠ CloudOps

在云上用 DevOps 是不是就是 CloudOps 呢?可能不是的。依据最新的 2021 年的 DevOps 报告,其实只有 20% 的企业在云上充分发挥了 DevOps 的劣势,这是因为云上云下有十分大的差别。

◾ 首先,操作形式有差别。云上提供了十分多的收费自动化运维工具和集成工具,能够大大地升高用户的老本,但须要用户和已有工具做集成。

◾ 第二,从资产到资源有差别。进行治理资源的时候,在云上可能认为它是资源,在云下的话可能是资产。例如,云上治理资源的时候,更多是把原机器开释、从新拉起一台机器,这样就实现配置降级、利用降级,而不须要关怀资产状态,这就是云上云下操作模式之间的差别。

◾ 第三,统一化和规模化的差别。云上规模化十分宏大,能够随时开启或者开释十分多的机器,如果有误操作,可能会给企业带来比拟大的老本或技术危险。

◾ 最初,云上对于平安和审计的实时性要求十分高。

2、CloudOps 次要成熟度模型与白皮书

咱们认为,CloudOps 不仅仅是在云上用 DevOps,更多的是要求用户关注云的特点。这些特点演绎为 5 个维度,即自动化能力、弹性能力、可靠性能力、平安合规能力以及老本和资源量化。咱们具体划分了云上 DevOps 的 5 大畛域,同时咱们也把每个畛域定义并划分了级别,造成了 CloudOps 次要成熟度模型。

以自动化为例,当初比拟风行的认识是心愿能做到无人值守,这些都定义在 CloudOps 次要成熟度模型里。咱们心愿通过这个成熟度模型,帮忙客户掂量目前在云上 DevOps 是否曾经足够成熟,以及如何可能晋升本人的成熟度。

为了更好地帮忙客户了解咱们的 CloudOps 成熟度模型,咱们公布了 CloudOps 白皮书,阿里云弹性计算的 10 余位技术专家独特撰写的 CARES 模型,从老本治理、自动化、可靠性、弹性容量治理以及平安合规五个方面,展现了如何可能在云上找到适合的运维形式和运维工具。

3、阿里云 CloudOps 产品族全展现

很多人说,云计算的实质就是运维能力的自动化。过来十多年,阿里云弹性计算始终在简化运维方面做了十分多的工具和致力,旨在全方位晋升云上 DevOps 效力,也造成了残缺的 CloudOps 产品家族。

◾ 老本治理方面,老本优化计划和老本付费模式计划,能够大大降低用户老本。

◾ 自动化服务上,提供了免托管运维,包含运维编排、补丁治理、配置清单、参数仓库等。

◾ 批量交付方面,提供有 OpenAPI 和弹性伸缩这些工具,能够大大降低自动化交付的复杂度。

◾ 实例运维通道,提供了十分多的形式,用户能够通过咱们的 web 版,也能够通过云助手和最新公布的工具做集成,从而大大降低应用自动化运维的门槛。

◾ 可靠性服务上,是所有云上用户谋求的重点,咱们公布了利用治理能力。

◾ 在可观测能力、自助故障排查以及事件服务上,也公布了残缺套件,并且大部分服务都是收费的。

◾ 平安合规方面,包含应用环境的平安和合规审计的便捷。咱们集成了很多产品,来晋升整体的平安合规能力,帮忙客户及时地发现并排除平安合规的危险。

从最后的上云到明天用好云、管好云的时代,阿里云弹性计算始终在致力于为客户提供丰盛、平安、便捷的云上运维产品与能力,将来咱们也心愿与大家携手独特构建更高效、更智能的云上运维。

原文链接
本文为阿里云原创内容,未经容许不得转载。

正文完
 0