关于阿里云:Kruise-Rollout灵活可插拔的渐进式发布框架

作者：赵明山（立衡）

前言

Kruise Rollout 是 OpenKruise 社区开源的渐进式交付框架。Kruise Rollout 反对配合流量和实例灰度的金丝雀公布、蓝绿公布、A/B Testing 公布，以及公布过程可能基于 Prometheus Metrics 指标自动化分批与暂停，并提供旁路的无感对接、兼容已有的多种工作负载（Deployment、CloneSet、DaemonSet）。

近期也在《2022 凋谢原子寰球开源峰会》下面做了主题分享，以下是次要内容。

什么是渐进式交付？

渐进式公布次要区别于全量、一次性公布。它次要蕴含以下特点：

增量的公布过程：艰深讲就是咱们能够将一次公布分成多个批次，并且能够管制每个批次的开始与进行。
实例与流量双重维度的灰度：比方社区常见的金丝雀公布、A/B Testing 公布、蓝绿公布。
阶段可验证性：就是公布的每个批次，能够验证公布的正确性、是否合乎预期。

上面咱们来看一个理论的例子。

如果线上是 X 版本，当初须要公布到 Y 版本。首先，会将公布分为多个批次（比方，第一批只公布十个实例）；而后，灰度肯定规定的流量到 Y 版本，比方：像淘宝每次重大公布，会应用 A/B Testing 的形式，只将公司员工灰度到新版本；最初，验证新版本的衰弱状况，验证 OK 后，能够反复上述的过程，实现残余的批次。如果在这个过程中发现了任何异样，能够疾速回滚到 X 版本。通过下面这个例子，渐进式公布与全量公布相比，减少了很多两头的验证过程，渐进式公布能够说是极大的进步了交付的稳定性，尤其是针对一些大规模的场景而言，渐进式公布是十分有必要的。

渐进式公布与 K8s 工作负载之间的关系

K8s 当中所有的 Pod 都是由工作负载来治理的，其中最常见的两个工作负载就是 Deployment 和 statefulset。Deployment 对于降级而言提供了 maxUnavailable 和 maxSurge 两个参数，然而实质上来讲 Deployment 它只反对流式的一次性公布，用户并不能管制分批。StatefulSet 尽管反对分批，然而跟咱们想要的渐进式公布的能力还有比拟大的间隔。

所以渐进式公布与工作负载从能力上讲是一种蕴含关系，它除了根底的 Pod 公布之外，还应该蕴含流量公布和进度管制。既然能力上曾经梳理分明了，上面咱们就要看看实现，如何去设计和实现 Rollout 能力也是十分重要的。在这咱们能够思考一个问题，从设计的角度看他们也是蕴含关系吗？

Rollout 计划的设计理念

筹备开始做这件事件前，必定要先调研一下社区的优良计划，看看其他人是如何解决的。

Argo Rollout 是 Argo 公司推出的 Workload，它的实现思路是：从新定义一个相似于 Deployment 的工作负载，在实现 Deployment 原有能力的根底上，又扩大了 Rollout 的相干能力。它的长处是工作负载内置了 Rollout 能力，配置简略、实现也会比较简单，并且目前反对的性能也十分的丰盛，反对各种公布策略、流量灰度和 metrics 剖析，是一个比拟成熟的我的项目。

然而它也存在一些问题，因为它自身就是一个工作负载，所以它不能实用于社区 Deployment，尤其是针对曾经用 Deployment 部署的公司，须要一次线上迁徙工作负载的工作。其次呢，当初社区的很多计划是依赖 Deployment 实现的，并且很多公司曾经构建了基于 Deployment 的容器治理平台，都要进行兼容适配。所以，Argo-Rollout 更加实用于定制化能力较强的、没有存量 Deployment 的公司业务。

另一个社区我的项目是 Flagger，它的实现思路跟 Argo-Rollout 齐全不同。它没有独自的实现一个 workload，而是在现有 Deployment 的根底之上，扩大了流量灰度、分批公布的能力。

Flagger 的劣势是反对原生 Deployment 、并且与社区的 Helm、Argo-CD 等计划都是兼容的。然而也存在一些问题，首先就是公布过程中的 Double Deployment 资源的问题，因为它是先降级用户部署的 Deployment，再降级 Primary，所以在这过程中须要筹备双倍的 Pod 资源。第二呢，针对一些自建的容器平台须要额定对接，因为它的实现思路是将用户部署资源都 copy 一份，且更改资源的名字以及 Label。所以，Flagger 更加适宜那种规模不大、基于社区计划部署、定制化较小的公司。

另外，百花齐放是云原生的一大特点。阿里云容器团队负责整个容器平台云原生架构的演进，在利用渐进式交付畛域也有强烈的需要，因而在参考社区计划以及思考阿里外部场景的根底上，咱们在设计 Rollout 过程中有以下几个指标：

1. 无侵入性：对原生的 Workload 控制器以及用户定义的 Application Yaml 定义不进行任何批改，保障原生资源的洁净、统一

2. 可扩展性：通过可扩大的形式，反对 K8s Native Workload、自定义 Workload 以及 Nginx、Isito 等多种 Traffic 调度形式

3. 易用性：对用户而言开箱即用，可能十分不便的与社区 Gitops 或自建 PaaS 联合应用

Kruise Rollout 工作机制与演进

Kruise Rollout API 设计是非常简单的，次要蕴含以下四个局部：

ObjectRef：用于表明 Kruise Rollout 所作用的工作负载，例如：Deployment Name
Strategy：定义了 Rollout 公布的过程，如上是一个金丝雀公布的示例，第一批公布 5% 的实例，并且灰度 5% 流量到新版本，待人工确认后，再进行后续公布**
TrafficRouting：流量灰度所须要的资源 Name，例如：Service、Ingress 或 Gateway API**
Status：用来展现 Rollout 的过程以及状态

接下来介绍一下 Kruise Rollout 的工作机制。

首先，用户基于容器平台做一次版本公布（一次公布从实质上讲就是将 K8s 资源 apply 到集群中）。

Kruise Rollout 蕴含一个 webhook 组件，它会拦挡用户的公布申请，而后通过批改 workload strategy 的形式 Pause 住 workload 控制器的工作。
而后，就是依据用户的 Rollout 定义，动静的调整 workload 的参数，比方：partition，实现 workload 的分批公布。
等到批次公布实现后，又会调整 ingress、service 配置，将特定的流量导入到新版本。
最初，Kruise Rollout 还可能通过 prometheus 中的业务指标判断公布是否失常。比如说，对于一个 web 类 http 的服务，能够校验 http 状态码是否失常。

下面的过程，就实现了第一批次的灰度，前面的批次也是相似的。残缺的 Rollout 过程完结后，kruise 会将 workload 等资源的配置复原回来。所以说，整个 Rollout 过程，是与现有工作负载能力的一种协同，它尽量复用工作负载的能力，又做到了非 Rollout 过程的零入侵。

Kruise Rollout 工作机制就先介绍到这里，上面我简略介绍一下 OpenKruise 社区。

最初

随着 K8s 下面部署的利用日益增多，如何做到业务疾速迭代与利用稳定性之间的均衡，是平台建设方必须要解决的问题。Kruise Rollout 是 OpenKruise 在渐进式交付畛域的新摸索，旨在解决利用交付畛域的流量调度以及分批部署问题。Kruise Rollout 目前曾经正式公布 v0.2.0 版本，并且与社区 OAM KubeVela 我的项目进行了集成，vela 用户能够通过 Addons 疾速部署与应用 Rollout 能力。此外，也心愿社区用户可能退出进来，咱们一起在利用交付畛域做更多的扩大。

Github：
https://github.com/openkruise…
Official：
https://openkruise.io/
Slack:
https://kruise-workspace.slac…

扫码退出社区交换钉钉群

戳此处，查看 OpenKruise 我的项目 github 主页！

关于阿里云:Kruise-Rollout灵活可插拔的渐进式发布框架

前言

什么是渐进式交付？

渐进式公布与 K8s 工作负载之间的关系

Rollout 计划的设计理念

Kruise Rollout 工作机制与演进

最初

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于阿里云:Kruise-Rollout灵活可插拔的渐进式发布框架

前言

什么是渐进式交付？

渐进式公布与 K8s 工作负载之间的关系

Rollout 计划的设计理念

Kruise Rollout 工作机制与演进

最初

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复