关于运维:阿里巴巴超大规模-Kubernetes-基础设施运维体系揭秘

简介：ASI 作为阿里团体、阿里云基础设施底座，为越来越多的云产品提供更多业余服务，托管底层 K8s 集群，屏蔽简单的 K8s 门槛、通明简直所有的基础设施复杂度，并用业余的产品技术能力兜底稳定性，让云产品只须要负责本人的业务，业余的平台分工做业余的事。

作者：仔仁、墨封、光南

序言

ASI：Alibaba Serverless infrastructure，阿里巴巴针对云原生利用设计的对立基础设施。ASI 基于阿里云公共云容器服务 ACK之上，撑持团体利用云原生化和云产品的 Serverless 化的基础设施平台。

2021 年天猫双十一，对于 ASI 来说又是难忘的一年，往年咱们又实现了很多“第一次”：

第一次全面对立调度：电商、搜寻、odps 离线和蚂蚁业务全面上 ASI 对立调度架构，整个业务核数达到了惊人的数千万核。

第一次将搜寻业务“无感知”平滑迁徙到 ASI：近千万核的业务，业务无感的搬到 ASI（然而咱们却经验了很多个不眠之夜）。

ASI 场景的 K8s 单集群规模超过万台节点，数百万核，超过 K8s 社区的 5000 台规模，一直优化大规模集群的性能和稳定性。

中间件服务第一次用云产品架构反对团体业务：中间件基于 ASI 公共云架构，将中间件服务平滑迁徙到云上，用云产品架构反对团体业务，实现“三位一体”。

ASI 在大规模生产利用的锻炼下，不仅积淀了十分多的 K8s 稳定性运维能力，更是在反对 serverless 场景下孵化了很多创新能力。如果运维过 K8s（特地是运维大规模集群）的同学肯定会有很深的感触：把 K8s 用起来很容易，想要用好 K8s 真心不容易。ASI 在应用 K8s 调度体系架构晚期成长阶段，也经验过屡次血的教训，过程中咱们继续成长、学习和成熟。例如：

一次失常的 Kubernetes 大版本升级流程，在降级 Kubelet 时把一个集群近千台业务 POD 全副重建；

一次线上非标操作，将大批量的 vipserver 服务全副删除，幸好中间件有推空爱护，才没有对业务造成灾难性影响；

节点证书过期，因为节点自愈组件故障状况误判，并且风控/流控规定判断也有误，导致自愈组件误将一个集群 300+ 节点上的业务全副驱赶；

以上列举的各种故障场景，即便是业余 K8s 团队都无奈避雷，如果是对 K8s 理解很少的用户，必定更无奈预防和躲避危险。所以，给所有正在应用 K8s 服务，或者想要用 K8s 服务的用户一个中肯倡议：不要想着本人就能运维好 K8s 集群，外面有多少坑你真的设想不到，业余的人做业余的事，让业余产品和 SRE 团队来实现运维。在这里，我也是强烈建议用户应用阿里云容器服务 ACK，因为咱们在阿里巴巴大规模场景下积淀能力加强、自动化运维和能力都会反哺到 ACK 中，帮忙更好的保护用户的 K8s 集群。

ASI 能运维好这么多宏大 K8s 集群，肯定得有“两把刷子”。明天我会给大家具体介绍 ASI 在为阿里团体构建云原生基础设施，和反对阿里云云产品 Serverless 化方面，咱们的运维体系和稳定性工程能力。

ASI 技术架构状态

在介绍 ASI 的全托管运维体系之前，我花一点篇幅来介绍一下 ASI。ASI 是基于 ACK、ACR 之上面向团体和云产品的 Serverless 化平台，旨在撑持阿里巴巴利用云原生化和阿里云产品 Serverless 化。上面介绍容器服务家族的几位成员：ACK、ASK、ACR。

针对阿里巴巴和云产品业务场景，在 K8s 集群性能层面咱们会给用户提供加强的能力，比方调度能力加强、Workload 能力加强、网络能力加强、节点弹性能力加强和多租平安架构等等；在集群运维层面，提供 Serverless 化的 No Ops 体验，比方集群大版本升级、组件降级、节点组件降级、节点 CVE 破绽修复、节点批量运维等，为用户的 K8s 集群稳定性兜底。

ASI 全托管运维支撑体系

ASI 为大规模 K8s 集群，提供了全托管、免运维的用户体验。这些能力不是 K8s 原生就具备的，而是在大量实际和失败过程中积淀进去的零碎稳定性加固能力。而放眼整个行业，正是阿里巴巴的规模化简单场景，能力锻炼出大规模场景下的 K8s 运维服务体系。

在讲 ASI 运维体系之前，我先强调一下在做零碎能力建设过程的一个重要准则：不反复造轮子，然而也不能齐全依赖其余零碎的能力。没有哪一款产品、零碎能 cover 住所有业务的所有问题（特地是 ASI 这样体量的业务）。依赖上下游链路曾经建好的零碎能力，然而不会齐全依赖，要做好零碎分层设计。如果一个零碎做好了底层的运维通道，咱们肯定不会再去做一个运维通道，而是会基于下层运维通道做咱们本人业务变更的编排；如果一个零碎做好了监控、告警链路的能力，咱们会做好监控、告警规定和路由散发的治理。

另外一件十分重要的事件：做稳定性的团队要想做好运维管控零碎，就肯定要对业务架构有十分全面、深刻的理解。稳定性团队不能只做经营，也不能仅仅在架构里面做 1-5-10 能力，这样是很难把控整个架构的稳定性。ASI SRE 尽管是为 ASI 基础设施稳定性兜底的团队，然而很多 SRE 同学都能够独立去对接新的业务，并能决定整个业务上 ASI 的架构。其实很多时候，如果是 SRE 和研发配合去接的业务方，往往问题都少很多，因为两个角色十分互补：研发在技术架构上有很好的判断，SRE 在架构合理性和稳定性危险有很好的判断。

如上图是 ASI 集群部署架构，齐全基于 ACK 产品 Infra 架构的 KOK（Kube On Kube）底座。整个架构分层为：

元集群（KOK 架构底层 K）：用于承载 K8s 业务集群的外围管控组件，将业务集群管控容器化部署，能保障部署形式更加规范，部署效率也会大大晋升。

Control-Plane：就是业务集群外围管控 4 大件：kube-apiserver/kube-controller-manager/kube-scheduler 和 etcd 集群。

Add-Ons：Serverless 外围性能组件，调度加强组件（对立调度器）、网络组件、存储组件、Workload 组件（OpenKruise）、coredns 和其余一些旁路组件。

Data-Plane：节点管控组件，比方 containerd、kubelet，kata 等，还有一些其余节点上的插件。

基于 ASI 整个架构，咱们通过一直摸索、形象，将 ASI 运维体系，形象成外围几大模块，如下图所示：

对立变更管控：这个是咱们从 ASI 的第一天就开始建设的零碎能力，因为从阿里巴巴技术倒退过程中汲取的经验教训来看，很多重大故障都是因为变更不标准、没评审、没危险卡点导致；

集群运维管控：ACK 会提供 K8s 集群全托管的规范产品能力，然而如何/何时做规模化降级的编排、验证、监控是咱们须要思考；并且咱们还须要建设正当的备容机制，保障集群的稳定性；

ETCD 运维管控：ETCD 也是齐全基于 ACK 的提供的全托管 ETCD Serverless 产品能力，咱们会和 ACK 同学一起共建 ETCD 性能优化、备容来更好的服务 ASI 的超大规模集群；

组件运维管控：ASI 运维体系十分外围的能力建设，Serverless 全托管服务，最外围的就是各个外围组件都要有相应的研发团队进行性能扩大和运维反对。这样如何定义研发同学的研发模式，确保日常运维的稳定性和效率是 ASI 产品能反对大量业务的要害。所以在 ASI 成立之初（2019 年反对团体业务上云）咱们就建设起了 ASI 组件核心，逐步定义和优化ASI外围组件的研发、运维模式；

节点全托管运维管控：这块是十分多云产品团队心愿容器服务提供的能力，特地业务产品团队，他们对基础设施十分不理解，心愿有团队能帮忙将节点运维全托管掉。节点运维能力也是 ASI 在撑持阿里团体过程中十分重要的能力积淀，咱们也将这部分教训输入到售卖区，并持续一直优化。云上最大的特点就是资源弹性，ASI 在售卖区也为云产品用户提供了节点极致弹性能力。

1-5-10 能力建设：云上用户有一个十分重要的特点，对故障容忍度非常低。这也给ASI带来了十分大的挑战，如何及时发现、排查和复原问题，是咱们始终要一直摸索的。

资源经营：备容，老本优化始终都是基础设施服务要解的问题，咱们既要确保服务运行稳固（比方不 OOM，不呈现 CPU 争抢），又要降低成本，更要升高云产品的服务老本。

接下来我会针对 ASI 全托管运维体系中要害零碎/技术能力的设计思路和具体计划进行论述，向大家出现咱们是如何一步步将大规模 K8s 全托管运维服务建设起来的。

集群全托管运维能力

当咱们在运维大规模 K8s 集群的时候，最深的感触就是：规模化既会给单个运维操作带来很大的复杂度，也会将单个运维操作的危险爆炸半径大大扩充。咱们也是常常会被上面的问题挑战：

所有变更是不是都有变更危险管控？

这么多的集群，这么多的节点（ASI 单集群曾经超过了上万节点），怎么做灰度稳定性危险最小？

黑屏变更无奈杜绝，如何把控危险？

单个运维动作尽管不难，然而咱们常常面临的是多个运维操作组合的简单操作，零碎如何不便的去编排这些运维操作？

带着这四个问题，接下来我会具体介绍，咱们如何在实践中一直形象和优化咱们的零碎能力，并积淀出目前对 ASI 全托管服务十分重要的稳定性零碎能力。

对立变更危险管控

2019 年，当咱们刚成立 ASI SRE 团队的时候，就在摸索如何把控变更带来的危险。过后的稳定性零碎能力还十分弱，真的是百废待兴，新的 SRE 团队的同学都是从阿里云自研的Sigma调度零碎各个子研发团队抽调进去的，所以大家对容器、K8s、etcd 这些技术都十分精通，然而对如何做 SRE，如何做稳定性都是一脸懵。记得刚开始，咱们在 ASIOps 零碎（过后还叫asi-deploy）里接入 ChangeFree 变更审批都花了 2～3 周的工夫。面对新的架构（Sigma -> ASI）、新的场景（团体业务上云）和如此简单、宏大的 K8s 业务体量，咱们也没有太多外界的教训能够借鉴。

过后咱们想的是靠零碎来做变更危险管控必定是来不及的（团体业务全面上云曾经发展起来，大量新的技术计划进去、大量线上变更），只能先靠“人治”。所以咱们就在整个 ASI 团队宣导任何变更都要让 SRE 审批，然而 SRE 并不能理解 ASI 所有技术架构细节，做欠缺的危险评估。为此，咱们又开始组建“变更评审”会议，在评审会上邀请每一个畛域的专家同学参加进行变更计划的危险评审。也是因为这个变更评审机制，帮忙 ASI 在变更危险阻断零碎能力十分有余的状况下稳固的度过了那段“艰巨”的期间。ASI 的变更评审会议也始终连续到明天，没有封网非凡期间，都会如期召开。也是那段时间，SRE 通过加入每一次线上变更的审批，也积淀了十分多的平安生产规定：

与此同时，咱们开始将这些曾经十分明确的变更危险阻断的规定实现到 ASIOps 零碎中。刚开始是实现 ASI 底层零碎架构层面的危险阻断能力，起初发现很多变更只通过底层ASI的指标/探测是没方法发现问题的，须要有一种机制能联动下层业务零碎来触发业务层面的一些危险阻断规定判断，这样能力尽可能的确保咱们的变更不会对下层业务带来影响。所以，咱们开始在 ASIOps 实现变更危险规定库的治理，并实现了一种 webhook 的机制，来联动下层业务方的巡检检测/E2E 测试。

ASI 有了这套在线变更危险阻断零碎能力之后，咱们再也没有呈现过封网期擅自变更，变更不做灰度、不验证等这类触犯变更红线的行为。

变更灰度能力

从理论教训来看，每一次线上变更，不论咱们后期计划评审如许认真、如许严格，危险阻断做的如许欠缺，运维性能写的多好。代码上线之后，总是会呈现咱们“意想不到”的状况。对于曾经晓得的事件，咱们肯定会做的很好，可怕的是咱们思考不到的事件，这不是能力问题，事实架构他就是足够简单。

所以性能上线肯定要灰度。当然，咱们还要保障变更动作的确定性，不能说张三变更是这样程序去灰度的，李四同样的变更又是另外的一个灰度程序。ASI 变更灰度能力，咱们也是通过了好屡次迭代。

Sigma 时代，集群都是跨机房/跨 Region 部署的，所以如此宏大的业务体量，Sigma 也只须要 10 个不到的集群来承载。对于研发来说，因为集群个数不多，集群做什么用的、业务类型是怎么的，都很分明，所以公布老本不是很高（当然，因为爆炸半径太大，公布小问题也是一直）。然而演进到 ASI 架构之后，集群布局是严格依照 Region/机房来进行切割的，并且因为 K8s 集群自身可伸缩性问题，无奈像 Sigma 集群那样一个集群能承载十几万的节点，K8s 社区过后给的是单集群规模不能超过 5000 节点（尽管当初 ASI 曾经优化到单集群上万节点，然而过大的集群在稳定性与爆炸半径方面的危险也更高）。在这种架构状态之下，ASI 集群的个数必定会远远大于 Sigma 集群的个数。研发同学都还在 Sigma 前期、ASI 晚期时代，很多研发习惯还是沿用 Sigma 过后的模式，公布工具还是 Sigma 时代的产物，没方法反对大规模 K8s 集群精细化组件公布。各个团队的研发每次公布也都胆战心惊，也怕出问题。

过后，在团体 ASI 集群个数还没有增长上来之时，咱们就曾经意识到要去解决变更确定性的问题。ASI 这么多集群，几十万的节点，如果让各个研发同学去决定如何变更必定是要出问题的。然而，过后咱们的零碎能力又十分有余，也没方法很智能的通过综合判断各种条件来为研发同学的变更确定一条最佳的变更灰度程序。那怎么办呢？零碎不牛逼，然而也得要解决问题啊。所以咱们提出了一个 pipeline 的概念：由 SRE 主导和外围研发TL一起确定线上外围集群的公布程序，定义为一条 pipeline，而后所有研发在做组件降级的时候，必须要绑定这条 pipeline，公布的时候，就能够依照咱们规定好的集群程序来进行灰度公布了，这就是 pipeline 概念的由来。这一个“看起来很 low”的性能，在过后耗费了咱们十分大的精力投入才做出一个初版。不过，当咱们“满怀信心”把 pipeline 推广给研发同学用的时候，却没有收到咱们设想中的“鲜花和掌声”，而是很多“吐槽和优化倡议”。所以咱们扭转推广策略：逐渐小范畴推广、逐渐修改、而后大范畴推广，直到大家齐全承受。当初 pipeline 曾经成为了 ASI 研发同学必不可少的公布工具了。当初想起来，也感觉蛮有意思的。也让咱们明确一个情理：任何新的性能不能“闭门造车”，肯定要从咱们的用户角度登程来进行设计、优化，只有用户称心，能力证实咱们零碎/产品的价值。

下图就是咱们依照测试->小流量->日常->生产这个程序，为研发定义的团体外围交易集群的公布程序：

动态 pipeline 编排 ASI 集群程序的能力，在过后只反对团体为数不多的 ASI 集群时，问题还不大。然而当 ASI 业务扩大到了阿里云云产品之后，特地是咱们和 Flink 产品一起孵化出了 ASI 硬多租 VC 架构之后，一个用户一个小的集群，集群数量陡增，这种人工编排集群程序就裸露很多问题了：

更新不及时：新增了一个集群，然而没有告诉相干同学，没有加到对应的 pipeline；

主动适配能力不够：ASI 新接入了一个云产品，须要人工新加一条 pipeline，常常更新不及时；

保护老本高：随着业务越来越多，各个研发 owner 要本人保护十分多条 pipeline；

扩大能力有余：pipeline 程序不能动静调整，ASI 反对云产品之后，有一个十分重要的需要就是依照 GC 等级进行灰度，动态 pipeline 齐全无奈反对。

基于上述动态 pipeline 总总有余，咱们也是早就开始了技术计划的优化思考和摸索。ASI外围是资源调度，咱们的调度能力是十分强的，特地是当初团体做的对立调度我的项目，将团体电商业务、搜寻业务、离线业务和蚂蚁业务，全副用对立的调度协定上了 ASI。我就在想，ASI 对立调度器是资源 cpu、memory 的调度，集群信息、Node 数量、Pod 数量、用户 GC 信息也都是“资源”，为什么咱们不能用调度的思维去解决ASI集群灰度程序编排的问题呢？所以，咱们参考了调度器的设计实现了 Cluster-Scheduler，将集群的各种信息整合起来，进行打分、排序，得出一条集群 pipeline，而后提供给研发同学来进行灰度公布。

Cluster-Scheduler 实现了一种“动静”pipeline 的能力，能很好的解决动态 pipeline 碰到的各种问题：

组件灰度公布的时候，通过 Cluster-Scheduler 筛选的集群范畴必定不会漏集群；

集群公布程序依照 GC 等级来进行权重设置，也能依据集群的规模数据来动静调整集群的权重；

研发公布的时候，不须要再保护多条动态 pipeline，只须要抉择组件公布范畴，会主动进行集群公布程序编排。

当然动态 pipeline 有一个很大的长处：集群公布程序能够自助编排，在一些新性能上线场景中，研发须要有这种自助编排能力。所以将来咱们也是动态/动静 pipeline 一起配合应用，相互补充。

集群webshell工具

SRE 在做稳定性危险把控的时候，肯定是心愿所有的变更都是白屏化和在线化。然而从咱们运维 K8s 的理论状况来看，没方法将所有的运维操作都白屏化来实现。咱们又不能间接将集群证书提供给研发同学：一是会存在权限透露平安危险，；二是研发在本地用证书操作集群，行为不可控，危险不可控。ASI 初期也呈现过屡次在本地用 kubectl 工具误删除业务 Pod 的行为。尽管咱们无奈将 K8s 所有运维操作都白屏化在零碎上提供给研发应用，然而咱们能够将 kubectl 工具在线化提供给研发来应用，而后基于在线化工具提供稳定性、安全性加固、风控等能力。

所以，咱们在 Ops 零碎里提供了集群登陆工具 webshell，研发能够先按“最小可用”准则申请集群资源拜访权限，而后通过 webshell 中去拜访集群进行相应的运维操作。在的 webshell 中咱们会将用户的所有操作记录下来，上传到审计核心。

在线 webshell，比照用户本地证书拜访集群，咱们做了十分多的平安/稳定性加固：

权限精细化管控：权限与用户绑定，有效期、权限范畴严格管控；

平安：不会给用户提供证书，所以不会呈现证书透露的问题；

审计：所有操作都有审计；

风控：检测危险操作，发动在线审批之后再运行操作。

变更编排能力

后面讲的危险阻断、变更灰度和黑屏变更收敛，都是在解决 ASI 稳定性问题。然而，谁又能帮忙解决咱们 SRE 同学面临的挑战呢？

做稳定性的同学都晓得：只有将变更白屏化/在线化之后，咱们能力对这些变更中心化管控，把控变更危险。然而对于 ASI 这种十分宏大简单的基础设施服务来说，变更场景繁多、简单。咱们 SRE 负责整个 ASIOps 运维管控平台的建设，既要面对每天沉重的运维工作，还要建零碎，更要命的是咱们的同学都是后端开发工程师出身，Ops 零碎须要做前端界面，写前端是后端工程师的梦魇，常常是一个后端性能 1h 写完，前端页面要画至多一天。

SRE 团队是一个技术服务团队，不仅仅要让咱们的服务方称心，更要让咱们本人称心。所以，咱们在搞零碎能力建设的过程中，始终在摸索怎么升高运维零碎开发的老本。大家应该也晓得，运维能力和业务零碎能力不同，运维操作更多是多个操作编排起来的一个综合操作，比方解决线上 ECS 上 ENI 网卡清理的问题，残缺的运维能力是：首先在节点上执行一个扫描脚本，将透露的 ENI 网卡扫描进去；而后是将扫描进去的透露的 ENI 网卡作为入参传给清理 ENI 网卡的程序；最初 ENI 网卡清理实现，上报相应的状态。所以，咱们过后就想做一个事件：实现一套运维操作编排引擎，能疾速的将多个单个独立的运维操作编排起来实现简单的运维逻辑。过后咱们也调研了很多编排工具比方 tekton、argo 这类的开源我的项目。发现要么是我的项目 PR 的十分好，然而性能还是太根本，没方法满足咱们的场景；要么就是在设计上更多的是实用于业务场景，对于咱们这种底层基础设施十分不敌对。

所以，咱们决定取当初已有编排工具的精髓，参考他们的设计，实现 ASI 本人的一套运维编排引擎工具。这就是 ASIOps 中 Taskflow 编排引擎的由来，架构设计如下图所示：

PipelineController：保护工作间的依赖信息
TaskController：工作状态信息保护
TaskScheduler：任务调度
Task/Worker：工作执行

举一个节点扩容性能的例子，如果是独自实现一套节点全生命周期治理的性能，所有的操作性能都要本人写。然而在应用了 Taskflow 编排能力之后，只须要实现 3 个 executor（执行器）逻辑：Ess 扩容、节点初始化、节点导入。Taskflow 会将这 3 个 executor 执行流串联起来，实现一次节点扩容操作。

目前 Taskflow 这套编排引擎在 ASIOps 内被宽泛应用，笼罩了诊断、预案、节点导入导出、VC 集群开服、一次性运维、公布等场景，也大大晋升了新的运维场景零碎能力开发的效率。

通过两年多的锤炼，SRE 团队的外围研发同学根本都是“全栈工程师”（精通前、后端研发）。特地是前端界面研发，当初不仅没有成为咱们团队的累赘，相同成为了咱们团队的劣势。很多零碎能力都须要前端界面裸露给用户来应用，而在 ASI 这个绝大部分研发都是后端工程师的团队，SRE 团队前端开发资源成为了咱们十分重要的“竞争力”。也充分证明了：技多不压身。

小结

对于 ASI 集群全托管运维能力，我这边外围介绍了在零碎能力实现上是如何做变更危险阻断、变更编排、变更灰度和收敛黑屏变更。当然，咱们在 ASI 管控全托管层面做的远远不止这些零碎能力，还有十分屡次的架构降级的大型线上变更，正是因为咱们有如此多场景积攒，能力积淀出很多重要的零碎能力。

组件全托管运维能力

对于 ASI 组件全托管能力，咱们之前曾经发表过一篇文章进行具体介绍：ASI 组件灰度体系建设，大家有趣味能够具体看一下，的确在 ASI 如此大规模场景下，才会有的技术和教训的积淀。所以我这里就不做过多的技术计划的介绍，更多是介绍咱们技术演进的过程。ASI 在组件灰度能力建设的分享，也入选了 2020 年 KubeCon topic：《How we Manage our Widely Varied Kubernetes Infrastructures in Alibaba》，感兴趣的同学能够去找一下相干的视频。

ASI 全托管模式下组件全托管能力是和目前半托管容器服务云产品一个十分重要的区别：ASI 会负责 K8s 集群中外围组件保护工作（研发、问题排查和运维）。这个其实也是和 ASI 起源无关，ASI 起源于个体业务全面上云期间，咱们提供一个大集群+公共资源池的模式让业务逐步从 Sigma 架构迁徙上 ASI。对于团体业务来说，必定不会去保护 K8s 集群以及集群里的各种组件，所以这块就齐全由 ASI 团队来负责，也让 ASI 逐步孵化出了组件全托管的零碎能力。

如上图，ASI 整个架构的各种层面的组件当初都是基于 ASIOps 进行对立的变更灰度编排治理。其实，在当初看来 ASI 的所有组件放在一个平台来保护，并且对立来进行灰度能力建设是十分天经地义的事件。然而，在过后咱们也是通过了十分长时间的“奋斗”，才让明天的架构变得如此正当。在屡次强烈的探讨和各种来自稳定性的压力背景下，咱们终于摸索出了一个比拟合乎目前 K8s 架构的顶层设计：

IaC 组件模型：利用 K8s 申明式的设计，来将所有 ASI 组件类型的变更全副改为面向终态的设计；

对立变更编排：组件变更最重要的是灰度，灰度最重要的是集群/节点灰度程序，所有组件都须要变更灰度编排；

组件云原生革新：原来节点基于天基的包变更治理革新成 K8s 原生 Operator 面向终态的设计，这样节点组件实现根本的组件变更通道、分批、暂停等能力。由下层的 Ops 零碎来实现组件版本治理、灰度变更编排等。

通过两年多的倒退，ASI 体系下组件变更也齐全对立在一个平台下，并且基于云原生的能力也建设出了十分欠缺的灰度能力：

节点全托管运维能力

后面我也介绍了，咱们在建设零碎能力时不会反复造轮子，然而也不能齐全依赖其余产品的能力。ACK 提供了节点生命周期治理的根本产品能力，而 ASI 作为 ACK 之上的 Serverless 平台，须要在 ACK 根本产品能力之上，建设规模化运维能力。从 Sigma 时代到ASI反对团体超大对立调度集群过程中，ASI 积淀了十分多规模化运维节点的能力和教训。接下来介绍一下咱们在售卖区如何建设节点全托管能力建设起来。

节点全生命周期定义

要建设比较完善的节点全托管运维能力，咱们首先要梳理分明节点全生命周期的每一个阶段须要做哪些事件，如下图咱们将节点全生命周期大抵分为 5 个阶段：

节点生产前：售卖区比较复杂的场景是每一个云产品都有一套或多套资源账号，还有很多须要自定义 ECS 镜像。这些都须要在新业务接入时进行具体定义；

节点导入时：集群节点导入时须要建设节点创立/扩容/导入/下线等操作；

节点运行时：节点运行时往往是问题最多的阶段，这块也是须要重点能力建设的阶段，如节点组件降级、批量执行脚本能力、cve 破绽修复，节点巡检、自愈能力等等；

节点下线时：在节点老本优化、内核 cve 破绽修复等场景下，都会须要节点腾挪、下线等规模化节点运维能力；

节点故障时：在节点故障时，咱们须要有节点问题疾速探测能力、问题诊断能力和节点自愈能力等。

节点能力建设大图

ASI 售卖区节点托管能力建设 1 年多，曾经承载了售卖区所有上 ASI 的云产品，并且大部分外围能力都曾经建设比较完善，节点自愈能力咱们也在一直优化欠缺中。

节点弹性

在云上一个最大的特点就是资源弹性，节点弹性能力也是售卖区 ASI 给云产品用户提供的一个十分重要的能力。ASI 的节点弹性能力依附 ECS 资源的极致弹性，能依照分钟级来进行 ECS 资源购买和开释，帮忙云产品精细化管制资源老本。视频云云产品目前就在 ASI 上重度依赖 ASI 节点弹性能力，进行资源老本管制。视频云均匀一天节点弹性 3000 屡次，并且通过一直优化，ASI 节点弹性能达到几分钟内齐全拉起视频云业务。

在节点弹性上，咱们在节点整个生命周期中都进行了性能优化：

管控层面：通过管制并发度，能够疾速实现几百台 ECS 的弹性工作解决；

组件部署优化：

daemonset 组件全副批改为走 Region vpc 外部地址拉取；
rpm 组件采纳 ECS 镜像内预装模式，并进行节点组件部署序编排来晋升节点组件装置速度；
最初就是 yum 源带宽优化，从原来走共享带宽转为独占带宽模式，防止被其余 rpm 下载工作影响咱们节点初始化。

业务初始化：引入 dadi 镜像预热技术，节点导入过程中能够疾速预热业务镜像，目前能达到 10g 大小镜像的业务拉起只须要 3min 左右。

1-5-10 能力建设

ASI 全托管模式的服务，最重要的还是咱们能为云产品用户进行底层集群稳定性问题进行兜底。这个对 ASI 的 1-5-10 能力要求就十分高，接下来次要给大家介绍 3 个外围稳定性能力：

风控：在任何场景下，ASI 都应该具备踩刹车的能力；
KubeProbe：疾速探测集群外围链路稳定性问题；
自愈：宏大的节点规模，十分依赖节点自愈能力。

风控

在任何时刻，ASI 肯定要有“踩刹车”的能力，不论是咱们本人同学误操作，还是下层业务方误操作，零碎必须有及时止损的能力。在文章结尾，我也介绍了 ASI 已经产生过的大规模重启、误删 pod 的事变。正因为之前血泪教训，才造就了咱们很多风控能力的诞生。

KubeDefender 限流：对一些外围资源，比方 pod、service、node，的操作（特地是 Delete 操作）依照 1m、5m、1h 和 24h 这样的工夫维度设置操作令牌。如果令牌耗费完就会触发熔断。

UA 限流：按工夫维度设置某一些服务（UserAgent 来标识）操作某一些资源的QPS，避免拜访 apiserver 过于频繁，影响集群稳定性。UA 限流能力是 ACK 产品加强能力。

APF 限流：思考 apiserver 的申请优先级和公平性，防止在申请量过大时，有一些重要控制器的被饿死。K8s 原生加强能力。

KubeProbe

KubeProbe 是 ASI 巡检/诊断平台，通过一直迭代，目前咱们演进了两种架构：核心架构和 Operator 常驻架构。KubeProbe 也中了往年上海 KubeCon 议题，感兴趣的同学，到时候也能够加入一下上海 KubeCon 线上会议。

1）核心架构

咱们会有一套核心管控零碎。用户的用例会通过对立仓库的镜像的形式接入，应用咱们通用的 sdk 库，自定义巡检和探测逻辑。咱们会在核心管控零碎上配置好集群和用例的关系配置，如某用例应该执行在哪些集群组上，并做好各种运行时配置。咱们反对了周期触发/手动触发/事件触发(如公布)的用例触发形式。用例触发后会在集群内创立一个执行巡检/探测逻辑的 Pod，这个 Pod 里会执行各种用户自定义的业务巡检/探测逻辑，并在胜利和失败后通过间接回调/音讯队列的形式告诉核心端。核心端会负责告警和用例资源清理的工作。

2）常驻 Operator 架构

对于某些须要 724 小时不间断的高频短周期探测用例，咱们还实现了另外一套常驻分布式架构，这套架构应用一个集群内的 ProbeOperator 监听 probe config cr 变动，在探测pod中周而复始的执行探测逻辑。这套架构，完满复用了 KubeProbe 核心端提供的告警/根因剖析/公布阻断等等附加性能，同时应用了规范 Operator 的云原生架构设计，常驻体系带来了极大的探测频率晋升(因为去掉了创立巡检 Pod 和清理数据的开销)根本能够做到对集群的 724 小时无缝笼罩，同时便于对外集成。

另外还有一个必须要提的十分重要的点，那就是平台只是提供了一个平台层的能力反对，真正这个货色要起作用，还是要看在这个平台上构建的用例是否丰盛，能不能不便的让更多人进来写各种巡检和探测用例。就像测试平台很重要，但测试用例更重要这个情理一样。一些通用的 workload 探测，组件探测，诚然能发现很多管控链路上的问题，然而更多的问题，甚至业务层的问题裸露，依赖于基础设施和业务层同学的共同努力。从咱们的实际上来说，测试同学和业务同学奉献了很多相干的查看用例，比方 ACK&ASK 的创立删除全链路探测巡检，金丝雀业务全链路扩容用例，比方本地生存同学的 PaaS 平台利用查看等等，也失去了很多稳定性上的后果和收益。目前巡检/探测用例有数十个，明年有机会破百，巡检/探测次数近 3000 万次，明年可能会过亿。能够提前发现 99% 以上的集群管控问题和隐患，成果十分好的。

自愈

当咱们的业务规模达到肯定规模，如果仅仅靠 SRE 团队线上 Oncall 去解决问题必定是远远不够的，肯定须要咱们零碎具备十分强的自愈能力。K8s 面向终态的设计，通过 Readiness、Liveness 机制能帮忙业务 Pod 疾速自愈。然而当节点故障时，咱们也须要节点能疾速自愈，或者能疾速将节点上的业务驱赶到失常的节点上。ACK 产品也提供了自愈能力，ASI 在这个之上做了很多基于 ASI 业务场景的能力加强。如下是咱们售卖区节点自愈能力的架构设计：

随着 ASI 业务状态的倒退，将来咱们将在如下场景下进行节点自愈能力加强：

诊断、自愈规定更加丰盛：目前的诊断、自愈规定很多场景下都没有笼罩，须要一直优化笼罩，更多节点故障场景；

基于节点池的精细化的自愈风控、流控：节点自愈的前提是不能让现状变的更糟，所以咱们须要在做自愈时，做更加准确的判断；

节点自愈能力与下层业务买通：不同业务状态，对节点自愈的要求不同。比方Flink业务都是工作类型，遇到节点问题须要咱们尽快驱赶业务，触发工作重建，最怕的就是工作“半死不活”；中间件/数据库业务都是有状态服务，不容许咱们轻易驱赶业务，然而咱们如果把自愈能力与下层业务逻辑买通，就能够做到将节点故障上透给业务，让业务来决策是否要自愈，以及业务如何自愈。

展望未来

ASI 作为容器服务 ACK 在阿里巴巴外部继续打磨的对立Serverless 基础设施，正在继续构建更弱小的全自动驾驶 K8s 集群，提供集群、节点、组件的全托管能力，并判若两人地输入更多教训到整个行业。ASI 作为阿里团体、阿里云基础设施底座，为越来越多的云产品提供更多业余服务，托管底层 K8s 集群，屏蔽简单的 K8s 门槛、通明简直所有的基础设施复杂度，并用业余的产品技术能力兜底稳定性，让云产品只须要负责本人的业务，业余的平台分工做业余的事。

原文链接
本文为阿里云原创内容，未经容许不得转载。

关于运维:阿里巴巴超大规模-Kubernetes-基础设施运维体系揭秘

序言

ASI 技术架构状态

ASI 全托管运维支撑体系

集群全托管运维能力

组件全托管运维能力

节点全托管运维能力

展望未来

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于运维:阿里巴巴超大规模-Kubernetes-基础设施运维体系揭秘

序言

ASI 技术架构状态

ASI 全托管运维支撑体系

集群全托管运维能力

组件全托管运维能力

节点全托管运维能力

展望未来

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复