关于运维:阿里巴巴监管控一体化运维｜阿里巴巴DevOps实践指南

编者按：本文源自阿里云云效团队出品的《阿里巴巴DevOps实际指南》，扫描上方二维码或返回：https://developer.aliyun.com/…，下载完整版电子书，理解阿里十年DevOps实践经验。

阿里巴巴的运维体系经验了脚本时代、工具时代和 DevOps 时代，目前正在实现自动化运维并摸索智能化运维阶段。在 2008-2009 年，阿里巴巴的运维还处于脚本时代，大量的运维工作须要通过脚本来实现。随着业务规模扩充和复杂度的进步，脚本的形式越来越难以保护，因而阿里巴巴开始引入运维工具。在运维工具时代，阿里巴巴的运维体系经验了：从工具团队和运维团队并行的阶段，到为了更好地保障工具品质对立的工具团队阶段，再到逐步有 DevOps 思维和职能的偏软件的工具团队阶段。最初，阿里巴巴利用运维团队迎来了一场大改革，以前的利用运维团队全被打散，合并到各业务的软件开发团队中去，全面践行 DevOps 思维。

进入 DevOps 阶段后，成熟的流程化运维工具尽管晋升了一部分运维效率，然而各个工具之间理论是独立割裂的，例如监控工具和运维工具是割裂的，巡检工具和快恢工具也是割裂的，这导致日常利用继续运维过程中，从监控发现、定位并疾速复原问题的链路很长而且低效。对运维开发来说，冀望的状态是业务利用上线后能够“No Ops”，监控及运维零碎能自行发现异常并主动解决，把利用及业务带回失常状态，解决完结后，发一个音讯告诉下即可。朝着“No Ops”方向致力，阿里巴巴利用运维开始了“监管控一体化”的体系建设。

新挑战

随着阿里巴巴业务的继续倒退及技术架构地一直演进，新的场景和问题一直呈现，这些都给以利用为核心的监控运维带来了新的挑战。

超大规模

阿里巴巴岂但领有泛滥形态各异的业务，而且体量大，特地是每年天猫双 11 大促，须要超大规模的 IAAS 资源撑持。2015 年之前，阿里巴巴每年都要花费巨额费用来购买服务器，建设一代又一代的 IDC 数据中心；2015 年至 2019 年，阿里巴巴走向全面云化的过程。在这个期间，阿里巴巴的基础设施一部分在云下数据中心，另一部分在阿里云上的数据中心，还须要反对同城多活到异地多活，所以必须要有弱小的云上云下一体化超大规模资源管理的能力；2019 年阿里巴巴实现全面云化之后，又开始面对一个新的超大规模资源管理场景：混合云。

运维效率

业务倒退瞬息万变，特地是公司的重要业务，迭代变更的速度十分快。在超大规模集群治理的前提下，为了保障业务的连续性和疾速迭代，咱们须要有能力继续高效地对利用进行公布、部署、变配等运维变更。这也就是 DevOps 的继续运维畛域要去解决的问题。

运维平安

安全性是任何行业的根底，在 IT 运维畛域更是如此。零碎宕机、数据异样、数据失落、删库跑路等运维故障和事件层出不穷，这可能给企业带来致命的打击，甚至关乎业务的生死存亡。因而，防备和杜绝高危运维故障是 DevOps 始终不懈谋求的指标。在当代泛滥业务状态和云技术架构下，如何保障企业 IT 运维的平安运行至关重要。

业务连续性

在阿里巴巴传统的监控和运维模式下，利用的运维开发须要在监控零碎上配置一些监控项和预警规定。当监控项触发预警规定时，运维开发会收到预警告诉。紧接着运维开发须要关上电脑，在运维工具平台上创立相应的解决工单。当运维零碎工单执行实现后，运维开发要继续察看监控项是否回归失常。若遇到节假日或休假期间接到预警告诉，不能及时上线查看状况时还须要分割团队其他同学上线解决；若在中午睡梦中接到预警告诉，须要立马苏醒下本人的大脑，关上电脑上线解决。整个预警异样处理过程持续时间较长，并且须要人为参加的工作很多，人力老本大，这使得运维开发的工作幸福感很低。

另一方面，随着业务地一直倒退，零碎也在一直减少，监控项和预警也急速增多，缓缓地运维开发就会对预警信息变得麻痹或鄙视，容易错失一些重要的报警信息，进而导致线上业务故障。近年来，淘宝直播、盒马线下门店、饿了么外卖、钉钉在线教育等新业务状态蓬勃发展，这些业务基本上对生产故障都是零容忍，原来零碎最佳的 99.99%可用性曾经不能满足新业务的要求，而传统的监控、运维各自为战、单打独斗的模式更无奈满足新业务 100%业务连续性的要求。

解决思路

为了保障生产业务的间断运行，进步业务零碎从异样预警到异样复原的整体效率，解放人力老本的同时又能确保安全，咱们思考将监控预警和运维执行联动起来，视为一体，从而实现异样主动发现、主动疾速定位以及主动疾速复原的目标，达到一种“No Ops”状态的利用运维。

在利用监管控一体化建设之前，传统的监控和运维是离开的状态，运维开发想要在利用迭代变更期间关注零碎运行态势，须要事先在监控平台上定义和配置好这些利用所要关注的各项指标。在利用变更期间须要一直被动查看利用监控指标的变动，或者为每个指标设置预警规定，通过订阅接管配置好的监控报警来及时获取利用的运行异样。当利用变更出现异常报警后，运维开发须要看监控、利用日志、利用调用链路等信息剖析异样起因，决策须要到运维平台上执行什么工作能力复原，最初验证工作执行后果是否合乎预期。因而，明确需要->配置监控指标和报警->剖析异样起因->决策解决形式->执行工作->验证执行后果，整个过程都须要运维开发的染指。

解决方案

以保障业务持续性为源能源，在逐步推进监管控一体化建设过程中，阿里巴巴从实战经验积淀出一套业务系统安全工程规范，实现了业务异样故障提前发现、主动定位、疾速复原地主动联动，在监控、运维、平安防护畛域摸索出了多样化的解决方案。

平安防护

在推动 DevOps 的过程中，咱们要求的底线是不能对既有的现状带来更多不可控的因素，特地是高危场景的防护，不能因为运维工作移交到运维开发人员而造成全局系统性危险，因而平安防护计划孕育而生。

全景监控

监控是运维的根底，传统的资源监控或者利用监控模式曾经不能满足运维开发疾速发现生产故障的需要。基于阿里的大规模实际，咱们倒退出了以利用为核心，从下层业务到 PaaS 直至底层资源的全链路监控解决方案，为业务异样发现和定位提供了强有力的撑持。

多样化运维

为了实现监管控一体化，促成业务异样能疾速主动复原，利用运维从原来的单事件执行模式，摸索出以利用为核心的可编排运维、智能化运维、ChatOps 等运维模式，关上运维畛域新视角。

总结

阿里巴巴利用运维监管控一体化的建设随着业务状态和技术架构还在一直地摸索和倒退，本文次要介绍了利用运维监管控一体化建设的背景和思路。咱们以利用为核心，从利用监控管角度登程，通过全视角监控实时把握利用的运行状态，通过高效公布部署和灵便的运维编排对利用进行平安变更，通过智能化运维和平安防护实现利用的高级防护，咱们将在上面的章节为你具体开展。

【对于云效】

云效，云原生时代一站式BizDevOps平台，反对公共云、专有云和混合云多种部署状态，通过云原生新技术和研发新模式，助力翻新守业和数字化转型企业疾速实现研发麻利和组织麻利，打造“双敏”组织，实现 10 倍效力晋升。

立刻体验

关于运维:阿里巴巴监管控一体化运维｜阿里巴巴DevOps实践指南

新挑战

超大规模

运维效率

运维平安

业务连续性

解决思路

解决方案

平安防护

全景监控

多样化运维

总结

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于运维:阿里巴巴监管控一体化运维｜阿里巴巴DevOps实践指南

新挑战

超大规模

运维效率

运维平安

业务连续性

解决思路

解决方案

平安防护

全景监控

多样化运维

总结

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复