关于腾讯云:面向异构技术栈和基础设施的服务治理标准化

3次阅读

共计 5629 个字符，预计需要花费 15 分钟才能阅读完成。

在已闭幕的 QCon 寰球软件开发大会·北京站《云原生微服务架构新趋势》专场，业界大佬们针对以基础设施和业务拆散为外围指标，多运行时 /Dapr 等概念 / 我的项目被提出已有 2 年无余，它们是否真正解决了咱们面临的问题？业务的反馈如何？是一个明确的新趋势吗？另一边，微服务治理标准化是否可行？Proxyless 是正确的路线吗? Java 如何适配云原生微服务架构？等问题进行了热烈探讨。腾讯云中间件团队技术专家单家骏针对以上问题也带来了精彩分享，议题是《面向异构技术栈和基础设施的服务治理标准化。》

本次分享次要从以下 5 个大节进行，首先从企业级服务架构动手，介绍异构技术设施和技术栈在古代企业架构所存在的必要性及对服务治理所带来的挑战，接下来介绍针对这些挑战的解决方案 – 服务治理标准化建设，最初分享标准化计划的生态倡议。

本次分享主题和服务治理无关，而服务治理次要是为企业应用服务的，因而咱们先看一下企业应用架构的组成。

当咱们须要开发一套零碎，首先要进行架构选型，架构选型的两大影响因素是组织架构和业务复杂度。如果组织人员比拟少（10 人以下）而且业务可能只有 1 - 2 个模块，那么就能够间接抉择单体集群架构。如果团队中人员比拟多，而且业务模块比较复杂，那么能够应用分布式或微服务架构，按业务模块进行服务的划分，各模块之间通过分布式音讯调用进行解耦，达到并行开发、数据隔离、故障隔离的目标。

确定了架构状态后，咱们须要进行零碎开发，开发零碎须要选型适合的技术栈，也就是语言和框架。一般来说，业务的匹配度以及开发效率是技术栈选型的影响因素，比方前端个别应用 JS, 后盾类可能应用 C++，Java，Go 这些；雷同的能够开发后端利用的语言，用户往往违心抉择生态更丰盛，开发效率更高的语言。

业务实现后，须要解决部署的问题。部署的基础设施个别有容器化和虚拟机，决定这方面的影响因素往往是老本，包含资源老本和运维老本。另外上云的话，基于合规以及和云厂商 argu 的思考，企业往往也会采纳混合云（比方金融类业务须要部署在金融区），或者多云计划。

业务部署实现后，咱们须要对业务平滑高低线及高质量经营。这时候咱们要有对应的灰度策略。同时上线运行后，咱们也要有肯定的伎俩管制业务呈现故障时的影响范畴，以及对故障进行及时的监控及告警，这时候就须要咱们对服务进行治理。只有业务可能高质量公布及经营，能力发明商业价值。

影响服务治理的，往往是上面的两个撑持因素，技术栈和基础设施。

技术栈次要波及的是开发业务所需的语言和框架，从业务的模块架构来看，最简略的业务零碎，都蕴含 2 个模块，Web 前端以及后端。而对于简单点的业务，比方像 AI 中台，蕴含 Web 服务、后盾业务（比方用户认证、数据增删查改）、根底服务（比方存储、缓存、日志等零碎），还有 AI 相干的服务，比方用户剖析，智能推送等。每局部模块都会有最适宜的语言和框架，这时候，多技术栈就是解决简单零碎开发效率最好的伎俩，而且也是企业架构的常态，会长期存在。

首先看基础设施，先疏忽 Serverless 的场景，对新业务以及违心做容器化革新的业务，优选的是容器，因为容器能够取得更好的资源利用率和部署效率。而对于一些强依赖零碎底层的业务，比方音视频的业务，或者是简略的单体利用，往往不须要去做容器化，纯虚拟机部署就解决。而对于两头这部分容器化的适度阶段或者只能局部容器化的业务，则会呈现异构基础设施容器化和虚拟机共存。

回过头来，咱们看看异构基础设施和多技术栈，对服务治理会产生什么样的挑战：

服务发现模型不统一

不同的 PaaS 都有本人的服务模型及服务发现机制，比方 K8s 会基于 etcd+coredns 进行服务定义和集群内发现，自建的 PaaS 也会有本人定义的服务模型。部署在不同的 PaaS 上的利用须要通信，则须要应用对立的服务模型。业界个别有以下的解决方案：

解决方案	存在问题
应用外置全局 DNS 进行服务发现	DNS 默认会有缓存时延，会导致节点变更不及时。
应用 LB + 全局 DNS 进行服务发现	能解决缓存问题，然而因为两头多了一个 LB，所以主调方没法做负载平衡，长链接场景下，会有负载不均的状况。
应用外置注册核心	不同注册核心的服务模型也存在差别，如果要互通或者迁徙须要做额定的解决。

服务治理规定模型不统一

不同的服务治理套件都有本人的规定，同时服务框架自身也带有局部治理性能。而不同框架之间的配置，以及性能完整性都会存在差别。比方熔断，像 hystrix 的熔断，是当错误率呈现阈值时候，切断拜访资源的所有流量。而有些框架，熔断是弹性的熔断，就是错误率达到阈值后，会缩小流量的接入并非全切断。针对这些问题，业界个别有以下的解决方案：

解决方案	存在问题
业务零碎应用对立的服务框架	1. 存量零碎，存在较大革新工作量；2. 一套框架可能适宜不了所有的业务场景。
应用 Sidecar，将服务治理能力下沉	1. 接管流量存在性能损耗；2. 非 K8S 场景应用运维比较复杂。

为了解决下面的这些问题，linux 基金会旗下的下一代基金会，联结各开源社区及企业，共建服务治理标准化，次要蕴含两局部：

第一，是倡议一套中立通用的服务治理规范，包含性能及接口的定义。

第二，只有定义的话，他人也无奈间接应用，因而还须要有一套匹配的规范实现，解决反复开发和性能下沉的问题。

基于这个理念，由北极星社区牵头设计了一套标准化计划：

要害的指标是能够做到与基础设施和技术栈无关，同时也能够兼容存量零碎及接口，用户可无缝接入，平滑迁徙。

第一层是治理面，负责服务治理规定的下发，数据管理及全局性能实现。次要分为服务治理、流量治理、故障容错、访问控制、可观测性五局部。

第二层是数据面，数据面是服务治理性能的规范实现，提供多语言 SDK、以及 JavaAgent 这 2 种不须要额定 Sidecar 的状态，以及提供 Sidecar 的规范实现，反对 Proxy 接入的场景。

第三层是服务框架，是间接面向利用的组件，框架能够通过集成数据面组件的形式来疾速接入服务治理，也本人依照标准化的定义来进行性能的实现。

接下来咱们介绍这几局部的性能：

服务治理蕴含服务定义及健康检查两局部。

首先是服务定义，服务定义基于两个思路来设计，第一个是最简和可扩大，第二个是和现有生态可能无缝互通。所以咱们服务模型是基于命名空间 - 服务 - 实例这 3 层的模型，每一层模型通过元数据来保障可扩展性，与现有的 K8S 以及其余注册核心的服务模型保障兼容及可转化。

第二是健康检查，须要反对常见的利用通过心跳等形式保护本身的衰弱状态，同时也要反对由第三方的 PaaS 平台进行治理利用的衰弱状态。

流量治理蕴含了主调方的出流量治理，以及被调方的入流量治理。比方对于灰度的场景，10% 流量发送到灰度分组，那么首先 SDK 会按百分比的形式对流量进行染色，加上申请标签，接下来，会通过申请路由依据申请标签，匹配出灰度分组的实例列表。最初再通过负载平衡算法，筛选出指标实例。而在被调方，则会依据本人的零碎容量，对申请进行限流判断，对于超过 QPS 配额的流量，能够进行回绝或者排队。

接下来是故障容错，故障容错蕴含针对故障产生时的重试机制，以及故障达到阈值后的熔断机制。

重试是个很重要的能力，所有的重试都是在零碎解决申请出错后进行的，没有解决好的重试会有放大系统故障的危险。所以，SPEC 中约定了两个要害的重试因素：第一个须要解决的是应该重制的申请，该如何重试。比方对于链路层的谬误，是应该重制的，重试加上退却策略使得重试更有成果，个别会有指数级时延退却，随机退却等策略。第二个须要解决的是不应该重试的申请，如何进行克制。比如说，对于单点实例的重试，是要防止的，每次重试应该重试到不同的实例。还有就是对于链路级的重试，要做到只在呈现故障的服务进行重试，上游不须要重试。

故障后除了重试，咱们也须要熔断，熔断也会有 2 种场景，一种是针对硬件呈现故障或者新上线的利用局部接口呈现 BUG 的状况，这种场景须要主调方对所调用的资源的流量全熔断一段时间再尝试复原。第二种状况并不是呈现故障，而是呈现过载了，这样的话，最正当的熔断形式是局部熔断，维持在刚好不过载的水位，对额定的低优先级申请进行抛弃。

最初咱们讲一下访问控制，对于一些安全性较高的业务，比方金融类业务，须要解决服务资源的拜访平安问题。次要包含对身份的认证，以及确认身份后对其拜访的资源进行鉴权。

首先要保障每个来访者都是非法的，须要对起源申请进行身份认证，认证通过后才接收。

来访者是非法的，但不保障他有权限拜访到他须要的资源，因而管理员须要对资源进行受权，同时对申请拜访的资源进行权限校验，确保不会呈现拜访越权。

刚刚介绍的都是性能怎么做的一个标准，然而为缩小用户的接入老本，咱们还须要一个默认实现。上面咱们介绍下标准化的默认实现 – 北极星（https://github.com/polarismesh）。

PolarisMesh（北极星）是腾讯开源的生产级的服务治理组件，一体化的治理立体提供了服务治理、流量治理、故障容错和配置管理的性能，基于标准化的接口定义，下发治理规定与服务配置数据到数据立体。而数据立体则提供服务治理的性能实现，同时也反对 SDK, Java Agent，Sidecar 等多种接入形式，能够在虚拟机、容器等任意的环境，实现服务数据的互通，大家都共享同一份治理配置和实现，无需做额定的反复开发。

看到这里可能大家就会问，业界曾经有 XDS 了，而且 XDS 自身能够实现管制面于数据面之间的服务治理协定的交互，为啥不间接用 XDS 呢，这里之前也思考过，然而基于实际上遇到了的一些问题最终还是放弃，这里初步列举了一些起因和比照，次要是以下这几点差异性。只管存在差别，北极星的服务治理定义，能够和 XDS 兼容，同样能够反对 XDS 的客户端（比方 Envoy、Grpc-xds）的接入。

	Xds Specification	Polaris Specification
概念模型	以后 XDS 次要还是源于 Envoy 的数据模型，治理协定扩散在 LDS、CDS、RDS、EDS 中，与网关的技术模型比拟贴近，存在肯定了解老本。	以服务为核心的治理模型、所有的流量治理、故障容错、鉴权都围绕服务进行，按性能和场景维度来划分模型。
性能比照	XDS 以后只笼罩了服务治理的基本功能，在一些细节性能以及场景化的笼罩上还存在有余，比方反对主调规定、分布式限流的策略等。	提供了更具体的服务治理根底能力和规范实现，将来会场景化进行进一步封装（比方多环境路由、灰度等）。
性能优化	XDS 默认规范实现是基于全量和增量下发规定，在规定较大的状况下，存在启动迟缓问题。	默认反对按需下发规定，规定的下发只会在首次应用性能时候进行。
规范实现	默认只提供 Envoy 的规范全功能数据面实现，对非 Sidecar 场景反对不够敌对	提供多语言 SDK，Sidecar、JavaAgent 等多种数据面实现。
兼容性	–	提供 XDS 的适配能力，反对应用 XDS 的数据面组件也接入。

服务治理标准化须要先与框架生态进行交融，能力更好的提供能力供给用开发者应用。

北极星与业界多个支流框架生态进行了扩大整合，确保开发者能够无需批改或者大量利用代码即可接入标准化的服务治理能力。

以后已实现对接服务框架如下：

框架	已对接性能	Github 地址
Spring Cloud	服务发现、配置管理、熔断降级、流量治理、可观测性	https://github.com/Tencent/sp…
cloudwego/kitex	注册发现、熔断降级、流量治理	https://github.com/kitex-cont…
kratos	注册发现、配置管理、流量治理	https://github.com/go-kratos/…
dubbogo	服务发现、熔断降级、流量治理	https://github.com/apache/dub…

服务治理标准化建设，将来会从两个方向进行进一步的迭代和欠缺：

标准化规定的建设上：

会进一步欠缺以后提供的服务治理能力，如可观测性，同时为更好的解决用户理论场景化的问题，则须要多个原子化性能组装应用，比方灰度公布须要组合应用染色、路由、可观测性等能力，存在肯定应用老本。将来会封装场景化的规定，通过场景化规定主动联动多个原子能力工作，升高应用老本。

生态建设上：

会进一步提供对多语言的反对（比方 Nodejs/.net 等）。同时增强与框架社区单干，在持续欠缺以后已对接的生态组件的根底上，反对更多支流的框架生态的对接。

服务治理标准化协定曾经公布了 1.0.0 版本，欢送大家提出宝贵意见，并可基于北极星及对接的生态组件进行体验：

Specification：https://github.com/nextarch/S…

PolarisMesh：https://github.com/polarismesh

Spring Cloud 生态：https://github.com/Tencent/sp…

cloudwego/kitex 生态：https://github.com/kitex-cont…

kratos 生态：https://github.com/go-kratos/…

dubbo/dubbogo 生态：

https://github.com/apache/dub…

欢送退出交换群一起共建：

正文完

腾讯云

发表至：腾讯云

2023-02-28

0

关于腾讯云:发布更新｜腾讯云-Serverless-产品动态-20201222

关于腾讯云:可视化编排云服务工作流-ASW-开始公测

关于腾讯云:腾讯云发布微搭生态开放计划与合作伙伴携手共创产业未来

关于腾讯云:SuperEdge-易学易用系列SuperEdge-简介

关于阿里云:应用场景系列之1流量管理下的熔断场景

关于腾讯云:面向异构技术栈和基础设施的服务治理标准化

前言

背景

企业级服务治理金字塔

什么是多技术栈

什么是异构基础设施

对服务治理的挑战

解决方案：服务治理标准化

服务治理

流量治理

故障容错

访问控制

默认实现 — PolarisMesh

生态建设

将来布局

写在最初

站内搜索