乐趣区

关于云原生:Apsara-Stack-技术百科-浅谈阿里云混合云新一代运维平台演进与实践

简介:随着企业业务规模扩充和复杂化及云计算、大数据等技术的一直倒退,大量传统企业心愿用上云来减速其数字化转型,以取得虚拟化、软件化、服务化、平台化的红利。在这个过程中,因为软件资产规模继续增大而导致的软件开发运维和 IT 基础设施建设经营压力,也将无奈持续采纳线性减少的形式来解决,且在 DevOps 思维的影响与疏导下,企业对于改善传统 IT 运维职责权边界不清晰,操作过程无序、晋升运维效率及业务稳定性方面也有着迫切的需要。企业必须放慢整个 IT 架构的转型,在基础设施上云后推动利用往云上迁徙,充分利用好购买的云基础设施。

随着企业业务规模扩充和复杂化及云计算、大数据等技术的一直倒退,大量传统企业心愿用上云来减速其数字化转型,以取得虚拟化、软件化、服务化、平台化的红利。在这个过程中,因为软件资产规模继续增大而导致的软件开发运维和 IT 基础设施建设经营压力,也将无奈持续采纳线性减少的形式来解决,且在 DevOps 思维的影响与疏导下,企业对于改善传统 IT 运维职责权边界不清晰,操作过程无序、晋升运维效率及业务稳定性方面也有着迫切的需要。企业必须放慢整个 IT 架构的转型,在基础设施上云后推动利用往云上迁徙,充分利用好购买的云基础设施。

企业上云挑战

通常企业在基础设施上云后,次要面临如下 4 个方面挑战。

第一,企业 IT 架构不对立,技术栈多,对立运维比拟难实现。通常来说企业通过多年的倒退,都存在大量性能高度重合,然而独立运行的利用。这些利用有的是自研,有的是 ISV 开发,甚至很多是定向洽购,这些利用架构不同,语言不同,甚至运行环境也不同,同时为了这些利用的稳固运行,催生了大量的运维工具和零碎,所以当企业的基础设施上云后,对这些利用对立进行运维老本极高,也是运维标准化、自动化的阻碍。

第二,企业正处于深入数字化转型阶段,对云不理解,对云上运维更不理解。企业数据中心面临转型,然而短少对立的体系化设计和建设,利用零碎不晓得怎么上云、运维人员不晓得云化后的定位,一切都在摸索中后退。咱们在和客户的交换中就会常常被问,你们在公司怎么做运维的,帮咱们列下你们工作的具体操作,甚至问你们的 KPI 是怎么定的。

第三,基础设施上云后,在晋升产研效率的同时对运维的 SLA 提出了更高的要求,利用零碎的日益简单、生产迭代的放慢,对于利用运维零碎来说,须要更智能的辨认拦挡危险,产生故障时更快的响应与疾速复原,放弃业务的持续性运行。

第四,将来大型企业必定会存在多朵云,不同技术栈的云如何治理及运维,存在艰难或者说还没有比拟好的解决方案。

阿里运维的变动与倒退

咱们看到以后企业所面对的挑战,阿里团体在全面上云的过程中也同样遇到了,基于以上的背景及挑战,咱们能够得出:基础设施上云后,企业的 3 大刚需别离是业务迁云、云上自动化运维、多朵云的混合云运维。那么咱们建设了面向混合云场景的对立运维平台,帮忙企业以利用为视角实现更易上云、更好用云,实现构建多云架构下成熟利用的对立建模、架构蓝图可视化交互驱动、集中式 & 场景化运维,以面对这些挑战。接下来讲一下,咱们是如何一步步演进、降级至混合云新一代运维平台。

阿里巴巴的运维体系经验了脚本时代、工具时代和 DevOps 时代,目前正在实现自动化运维并摸索智能化运维阶段。在 2008-2009 年,阿里巴巴的运维还处于脚本时代,大量的运维工作须要通过脚本来实现,随着业务规模扩充和复杂度进步,脚本的形式越来越难以保护,因而阿里巴巴开始引入运维工具;在运维工具时代,阿里巴巴的运维体系经验了从工具团队和运维团队并行的阶段,到了为更好保障工具品质对立的工具团队阶段;再到逐步有 DevOps 理念和职能的偏软件的工具团队阶段;最初,阿里巴巴利用运维团队迎来了一场大改革,以前的利用运维团队全被打散,被合并到各业务软件开发团队中,全面践行 DevOps 理念。

进入 DevOps 阶段后,成熟的流程化运维工具尽管晋升了一部分运维效率,然而各个工具之间理论是独立割裂的,例如监控工具和运维工具是割裂的、巡检工具和快恢工具也是割裂的,这导致日常利用继续运维过程中,从监控发现、定位并疾速复原问题的链路很长且效率低下,对运维开发来说,冀望业务利用上线后能够“No Ops”,监控及运维零碎能自行发现异常并主动解决,把利用及业务带回失常状态,阿里巴巴利用运维开始了“监管控一体化”的体系建设,走上了通过智能化伎俩晋升运维效率、运维平安,从而保障业务连续性稳固。

大家都晓得,阿里巴巴岂但领有泛滥形态各异的业务,而且体量大,特地是每年天猫双 11 大促,须要超大规模的 IAAS 资源撑持。2015 年之前,阿里巴巴每年都要花费巨额费用来购买服务器,建设一代又一代的 IDC 数据中心;2015 年至 2019 年,阿里巴巴走向全面云化的过程,在这个期间,阿里巴巴基础设施一部分在云下数据中心,另一部分在阿里云上的数据中心,还须要反对同城多活到异地多活,所以必须要有弱小的云上云下一体化超大规模资源管理的能力;2019 年阿里巴巴实现全面云化之后,又开始面对一个新的超大规模资源管理场景“混合云”治理。

混合云场景下的运维实际

下面咱们提到了很屡次“利用运维”,咱们先来说一下什么是利用运维,讲这个之前咱们先遍及一下什么是“利用”,利用是指提供一组雷同服务(Service)的资源集,能够对多个地区、多种资源进行全生命周期的角色、权限的对立治理,并领有本人的代码介质如 WAR、JAR、镜像,那么利用运维即是对一组雷同服务(Service)的资源集的生命周期进行运维。

那么咱们所讲的利用运维平台正是处于 SaaS 层与 PaaS 层两头,与 APaaS 的概念有点类似,次要负责面向用户的业务 / 利用的运维工作。因而利用运维向上能够触达业务包含流量、GMV、营收,向下能够触达平台和零碎包含资源与硬件,利用人造和人强耦合,因而也能够关联账号和权限等虚构资源,咱们通过利用很容易能够构建业务运行的各种蓝图拓扑关系,通过对利用生命周期全封闭治理,咱们能够高效,精确的治理好利用依赖的各种资源,利用运维也提供呈上启下的作用,从业务研发到利用运维再到基础设施运维的分层工作流,即为云 + 利用一体化运维计划,基于利用三态模型建设,自上而下提供利用等级、部署架构到蓝图布局的一整套解决方案,实现从用户对利用全生命周期的治理、研运一体精细化经营到一站式运维。

至此,混合云利用运维平台诞生,通过阿里团体外部多年的教训积淀演进,撑持了阿里团体的业务容器化、云化的重要架构演进。平台也是以 ITIL 理念为领导,提供云上的对立配置管理,为业务运维变更,一体化运维监控提供对立的数据,内置的安全策略以及外围资产爱护,为业务变更的安全可靠提供稳固撑持,通过大数据以及算法平台,剖析利用的指标、变更、日志等数据,为利用刻画智能基线和画像,通过与监控的对立事件核心联动、与利用运维自动化变更流程联合,实现基于指标和事件的异样快恢。

平台外围能力介绍

下面咱们讲到企业上云后的挑战,这些挑战在阿里走向全面云化的过程中也都一一碰到,利用运维平台的演进诞生也分了几个次要外围能力的演进,上面咱们讲讲这些外围能力是如何撑持业务上云的。

对立 CMDB

首先咱们对立了 CMDB,CMDB 做为根底服务,为企业提供从团队合作、企业主数据、IT 资产治理、监控等外围模块的数据交换能力,业界的解决方案也十分多,然而咱们调研了业界内很多相干的产品,发现现有的 CMDB 都比拟偏传统,面向利用治理的 CMDB 比拟少。

所以咱们构建了以利用为核心利用模型,满足混合云运维的各种需要,比方异构云元数据的对立纳管,通过自动化资源生命周期治理而不是脚本采集来保证数据的准确性。因而混合云 CMDB 要求领有灵便的建模以及查问能力,要求有能力在大流量高并发的状况下,提供实时、精确数据操作能力,提供灵便可自定义和拓扑构造图形化展现能力,可自定义标准、束缚状态变动等能力,并反对深度的拓扑查问能力,也提供高可用的 API 服务,反对被集成。咱们以后混合云的 CMDB,通过历年双十一的积淀与客户场景的一直打磨成型,并采纳以业务变更驱动配置数据变更的形式而不是被动采集更新的形式,更好的保障了数据的是实时性和权威性,造成了产品能力上的差异化竞争。

混合云资源管理

接下来我再介绍下,云上运维必不可少的利用混合云资源纳管。既然咱们是面向混合云的治理平台,势必须要无缝对接私有云、专有云 IaaS 资源,并且能够接管用户自建 IDC 等异构云的资源。反对 IaaS 资源全生命周期治理的同时并反对混合云资源的自动化编排,计量计费,老本剖析与管制,在升高企业资源应用老本的同时,满足业务疾速交付的需要。

区别云平台资源纳管,以利用的视角治理利用的架构和资源,并提供一键式的资源交付能力,能够让不同的角色分工协作,例如平台布局人员提前布局好运行环境和网络,利用的架构角色能够定义利用零碎的架构,平台主动创立利用零碎以及应用服务的配置数据,而后利用的研发运维人员以业务的视角基于利用的部署架构,进行资源的布局,在资源编排时,业务只需关怀利用运行在哪个环境中,对利用的研发运维角色屏蔽了地区、vpc 等网络相干的配置信息,让业务人员更多的关注在资源配置上,平台主动进行资源申请交付,并被动保护资源和零碎之间的治理关系,主动落入对立的 CMDB 中,这也就是后面讲到的,混合云平台的 CMDB 的数据的保护都是通过变更驱动的。

可视化编排

在利用运维畛域,大部分的做法都是基于工作流以及工单治理来实现对应的运维变更操作,而传统的运维工作流在保护老本及可扩展性上都存在肯定的有余,不足无效的流程生命周期管理手段。

例如利用申请云资源的场景,大多是一种复合操作,可能会波及多个云资源间的依赖关系,比方申请一个 ECS 的同时须要挂载 SLB,同时挂载数据盘以及 OSS 能力满足业务需要,如果不是通过可视化编排,那么平台的易用性和复杂性会成倍增加。那么用户(PaaS 服务以及开发、运维、经营等角色)能够依据理论业务须要,对多个原子组件通过简略可视的编排的形式进行灵便拆卸,结构出不同的业务流程实现一个残缺的运维需要,运维编排也能够帮忙咱们更好地标准、治理和执行自动化运维操作,以模板的形式定义所须要进行的操作,而后再通过零碎运行,从而进步整体运维操作的效率、加强运维操作的安全性,并防止人工运维的谬误。

自动化智能化运维

当平台具备了根本能力当前,也就须要在其余畛域进行冲破。咱们通过在阿里团体以及客户侧的大量实际,积淀出基于利用的智能运维框架,轻量化的架构能够实现数据采集收集,算法疾速开发调优,与业余的算法团队深刻单干,疾速构建起智能运维畛域的相干能力,比方:弹性伸缩,智能告警,智能巡检、无人值守公布等场景,对竞品造成了技术上的劣势。

并且依据一些调研的数据显示,企业中 70% 以上的故障都是因为变更引起的,在企业应用麻利迭代的场景下,如何体系化、自动化、智能化的保障变更平安是所有企业外围诉求。很多企业在进行生产变更时会要求双人复核,肯定水平上对变更前的一些事项进行查看,升高变更危险,这就对人员的技能要求很高,而且教训不易复制,也肯定水平上升高了效力。

混合云利用维平台通过系统工程化的解决方案,依据阿里的各种业务场景,提炼了变更的危险策略,与运维平台变更流程进行了无效联合,实现变更前危险监测,对于辨认到的危险,会进行变更拦挡,进行流程加签审批,保障运维流程的平安;变更执行中,平台会实时对业务运行态指标进行监测,与利用画像进行比对,当变更时利用指标 / 业务指标产生大幅度抖动时,平台会主动进行变更拦挡,及时管制影响范畴。

将来的运维趋势

以上咱们剖析了阿里运维平台上云后演进过程,同时分享了平台的几个外围能力,上面咱们聊一下将来运维发展趋势是如何的。

如果说运维 1.0 时代,是以黑屏运维模式、主机运维技术特点,晋升 IT 运维工作(人员)本身的效率,运维 2.0 时代是白屏运维模式、容器化运维技术特点,晋升 IT 零碎的效率性、升高运维老本,那么运维 3.0 必将是数字化时代的运维模式,这种运维模式重要的个性就是以保障业务稳固、高效为指标,提供云 + 利用一体化运维模式、业务可靠性的系统工程技术能力,从各个维度系统化保障业务的稳固。

在最新的十四五布局中,国家明确提出将减速推动传统企业的数字化转型,同时也明确提出,相干科技领域,电力,金融,交通等这些基础设施级别的民生企业要保障安全可靠。事实上在十三五期间,曾经有越来越多的这类传统企业依赖云试水数字化数转型,而保障曾经数字化转型胜利的企业平安稳固运行在云上,必将是外围竞争力。

在数字化改革的浪潮中,中国作为产业规模最大和门类最齐全的经济体,迎来百年未有的崛起机会,拥抱数字基础设施,摸索合乎数字化时代要求的技术和治理范式,将帮忙咱们切实把握机会,而把握这一机会的组织,将在数字化改革的浪潮中怀才不遇。

将来咱们也会和企业独特成长,提供企业用户金融级别高可用和连续性要求的利用所需各类服务,满足金融等业务场景下多活和容灾的业务需要,促成企业业务的敏态和稳态倒退,切切实实帮忙上云的企业客户,建设以云 + 利用为核心的企业数字化业务经营治理解决方案。

混合云新一代运维平台,帮忙企业数字化经营可体现、治理可决策、治理可执行,让企业在敢用云的同时用好云。

原文链接
本文为阿里云原创内容,未经容许不得转载。

退出移动版