关于云原生:阿里云云效技术专家分享云原生开发调测及可靠发布解决方案

31次阅读

共计 2751 个字符,预计需要花费 7 分钟才能阅读完成。

简介:高效开发、持重公布。

在云原生环境中,基于 Kubernetes 的工具链一方面简化了开发者的许多日常琐碎,另一方面也带来了许多新的概念和工作形式的扭转。本篇文章将聚焦于云原生基础设施,谈谈如何在面向云原生的开发流程中,高效地进行开发调测以及公布。

首先,从通用意义上讲,作为一个开发者,你冀望怎么的研发流程?


我了解的现实研发过程

基于这个现实的研发流程,当研发基础设施迁徙到云原生和微服务架构之后,在开发、调试和公布方面会遇到什么问题,又要如何解决?

一个典型的研发过程蕴含三个环节:开发、测试和部署。

开发次要指的是代码的编写和自测。当你写好代码和单元测试之后,须要在一个运行环境中进行功能性验证。本地 IDE 提供了大量用于调测的性能,并且本地服务的重新启动速度也比拟快。相比将代码部署到远端的测试环境,可能齐全在本地进行编写、启动、debug,是最现实的工作形式。

理论的工作中,为了验证一个特定性能场景,往往须要配合其它的内部依赖,比方以后我编写的这个服务依赖什么别的服务;还有什么其余服务须要调用我的服务,我能力做一个残缺的验证?

这些问题都须要很好的解决,能力真正享受到本地开发的便当。

测试个别指的是在 CI 环境中的各种自动化测试和验收环境中的测试验证,本文的重点不在这里,因而假如咱们曾经实现了这些操作。来到了部署的环节。

尽管曾经通过了很多的验证,咱们对要公布的版本的品质曾经有了相当程度的信念。但公布发上线之后,也不可避免的时不时会引入一些缺点,因而如何让呈现的这些问题的影响面最小,就是所谓的持重公布。

首先来关注在云原生下的开发和调试。

随着微服务技术和各类开源服务组件遍及,现在的软件系统或多或少的都会蕴含数个互相独立的服务实体,之间通过接口调用相互连接。因而在本地进行服务测试的时候,不免波及到与上下游的其余服务的互动,特地是在进行残缺性能验证时,经常须要在本地将上下游链路的所有服务全副启动起来。然而随着零碎的演进和服务的增多,本地资源很快就无奈撑持整体系统启动了。那么,是否可能将测试环境中的公共服务节点和本地服务串联在一起,行成残缺的测试链路呢?

在云原生的环境下,测试环境被 Kubernetes 的集群网络边界所隔离。从集群内部拜访测试集群中的服务须要通过对立的 Ingress 网关,且只能拜访配置了网关路由的一小部分局部服务。同时因为开发者的本地主机通常没有公网 IP 地址,从测试环境中齐全无奈连贯到本地的服务实例。

为此云效发明了 kt-connect 工具来解决本地测试时的网络联通问题,它可能在开发者的本地环境和 Kubernetes 测试集群之间,建设起一条虚构的双向网络通路。

kt-connect 是一款简略易用的命令行工具。对于从本地连接测试环境的状况,它提供了一个 connect 命令,利用在集群中部署一个作为网络代理的 Pod 节点,使得从本地网络可能间接拜访集群中的任意 Service 域名、IP 地址和任意 Pod 的 IP 地址。而对于其从集群拜访本地的状况,kt-connect 提供了 exchange 命令,通过另一个反向的代理节点实现将集群中流入指定服务的所有申请导向到本地的指定端口。

对于集体开发者的应用场景来说,以上两个命令就可能齐全满足日常工作了。然而对于团队开发的场景下,则会带来新的问题。当一个开发者应用了 exchange 命令,将特定服务实例的流量全副导向本地,在同一个集群中工作的所有其余开发者都会随之受到影响。为了防止这样的互相烦扰,kt-connect 又发明了第三种命令 mesh,它的性能与 exchange 命令类似,但并不会将网络中的所有流量全副导入到开发者本地,而是基于特定的网格规定,只将符合要求的测试流量导向开发者的本地环境,从而实现测试环境资源的最大化利用率和多我的项目的和平共处。

从实质上来说,kt-connect 次要利用了 Kubernetes 原生命令行的端口转发和开源 SSH 工具的四层网络代理能力实现,对利用自身不产生任何侵入,目前咱们曾经将它的所有源代码在 Github 开源。

接下来来到公布的环节。

云原生基础设施内置了滚动公布的能力,能够很好的满足公布自身的可靠性的需要,保障整个公布过程是优雅的。但这个模式有一些问题,比方公布和回滚的工夫都比拟长,且无奈暂定下来进行业务运行状态的察看。一个进阶的模式是蓝绿公布,新启动一个正本,而后把所有流量全切到新的版本,这样公布和回滚都很快了,但所有流量还是一次性切换的,没法进行增量验证。金丝雀公布能够解决这个问题,能够通过路由管制,逐渐将流量导入到新版本上。但个别是采纳流量百分比的形式,所有没法指定特定人群应用新版本。

一个更加可控的金丝雀形式,须要给每个用户设置一个流量标记,比方应用 cookie。也就是说通过一个相似 interpcetor 的机制,判断以后用户是否应该是一个灰度用户,如果是的话,就给他设置一个 cookie,后续来自该用户的所有流量都会带上这个 cookie。有了这个流量标记,就能够在流量入口处依据 cookie 的值判断该申请应该到新版本还是老版本。

有了这个路由机制,还是不够。因为咱们理论的应用程序并不是只有一个服务,而是像图中的由多个服务相互调用而组成。比方当我要公布服务 B 的时候,因为服务 B 并不是间接面向浏览器的,所有无奈接管到用户的 cookie。这时就须要有一个流量表主动传递机制。个别的做法是在申请的入口处把灰度标记存在一个 ThreadLocal 中,而后在利用的出口处,比方一个 OkHttpClient 的调用处再把这个 ThreadLocal 中的值放到 cookie 中持续往下传递。

咱们曾经了解了“全链路可控金丝雀公布”的做法,接下来要探讨在技术上如何实现。在阿里巴巴,咱们应用了一个叫做对立接入的技术,所有的申请(包含入口流量和外部服务之间相互调用的流量)都会通过通过接入,而后有对立接入决定该将这个申请散发到哪里。

到了云原生时代,Service Mesh 的概念衰亡,其实实质上就是一个“分布式对立接入”。这个对立接入不再是一个中心化的服务,而是随着每个服务的每个实例一起部署在一起的过程,这个过程负责接管改实例的入口流量,并转发给理论的服务;同时也拦挡实例的进口流量,并决定下一跳应该是谁。

Istio 是 Service Mesh 的一个被宽泛采纳的实现。

理解了这个原理之后,从上图中,能够看到一次公布过程是什么样子。

这个公布过程中波及到屡次 Kubernetes 资源的更新操作,如果齐全采纳原生命令 + 手工配置来操作,不仅简单还容易出错。为此云效对云原生的各种常见公布模式都进行了产品化封装,开发者只须要配置一些简略的公布和路由规定,就能够轻松地实现平安可控公布过程。

原文链接
本文为阿里云原创内容,未经容许不得转载。

正文完
 0