关于阿里云:合阔智云核心生产系统切换到服务网格-ASM-的落地实践

作者：刘如鸿

背景

合阔智云(www.hexcloud.cn) 是专一于为大中型批发连锁行业，提供全渠道业务中/前台产品和解决方案，并建设以消费者为核心的全渠道交易和麻利供应链的新一代批发经营协同平台。

合阔智云提供了从全渠道交易治理到订单履约再到门店供应链残缺的餐饮批发连锁解决方案，整个计划采取微服务设计，并深度应用了 Kubernetes 作为生产调度平台。

技术现状

整个业务零碎采纳微服务架构，但不同业务场景在不同阶段抉择了不同的技术语言来开发，如 Python、Golang 和 Java，甚至有局部利用应用了 Nodejs，因为技术栈的缘故，Spring Cloud 或者 Dubbo 这样的全家桶并不适宜咱们，为了可能适应业务须要，咱们抉择了上面的策略：

不依赖于繁多语言和繁多技术框架，容许应用更加适合业务的开发语言，如疾速业务迭代应用 Python，根底服务和云原生局部应用 Golang，外围的业务零碎应用 Java
服务外部应用 gRPC 通信，服务接口定义依赖于 Protobuf
原则上跨服务通信不依赖于音讯队列，音讯队列只用于服务本身的调度与弥补，这样子升高了音讯零碎自身的复杂性
所有零碎不间接裸露 HTTP，须要提供 HTTP 服务的，应用团队开发的 grpc-proxy 来实现 HTTP to gRPC 的转码代理工作

原则上利用只解决业务自身的问题，所有基础架构局部的能力都转由 K8s 来负责，包含：

网关
服务发现
负载平衡
指标与监控
健康检查
故障复原

以后挑战

晚期所有技术人员只须要专一业务的编写，其余所有的工作全副交给 K8s，在流量比拟小业务绝对简略的状况下，这个运行十分晦涩。然而，随着利用数量的减少，业务变得越加简单，内部流量也在一直增长，由此带来了利用链路调用更加简单等新的运维难题：

外部调用用的是 gRPC 协定，利用端没有做特地解决，导致基于 HTTP2 的长连贯协定无奈实现负载平衡，尤其是繁多客户端调用变大的状况下，服务端无奈无效负载；
因为利用自身比拟薄，利用调用链路无奈透明化，每次新的公布部署容易出问题。

在 2022 年之前，咱们应用 Linkerd，初步解决了服务在负载平衡和调用链路上的治理难题，但咱们大部分的基础架构都是依赖于阿里云，比方：

日志应用 SLS
利用监控应用 ARMS
链路追踪应用 XTrace
仪表盘应用 Grafana
容器监控应用 Prometheus

为了简化基础架构的复杂性，咱们在根底服务上的根本准则是应用云厂商而非自建，而 Linkerd 在理论的应用过程中遇到了一些问题：

须要应用自建的基础设施，无奈和阿里云提供的基础设施很好的交融
利用可观测性比较简单
Sidecar 应用默认配置，控制能力绝对较少，在应答一些简单一点的场景，无奈做到灵便配置

而可观测性是服务网格的基石，在一套自建的基础架构上，咱们会偶发的呈现链路被熔断、某个端口无法访问的场景，最终的解决方案就是勾销注入或者从新注入来解决。

基于服务网格 ASM 的摸索

集群现状

咱们目前有两个生产集群，共计 150 台 ECS，2500 个 Pod，不同开发语言利用的特点如下：

Golang 用于用户基础架构以及计算密集型性的利用零碎，总体内存占用不会超过 500M，局部服务会随着临时性的内存而增长，如文件的导入导出服务；
Python 用于晚期业务麻利迭代构建的业务零碎，都是单过程多线程工作模式，繁多 Pod 内存占用不高，但一个 Deploy 须要更多的 ReplicaSet 数量；
Java 用于全渠道在线交易业务构建的零碎，繁多 Pod 须要消耗的资源比拟多，但等同状况下繁多 Pod 的解决能力比拟强。

两个集群包含了不同的利用场景：

ACK-PROD：晚期针对大型客户专有部署的利用集群，每个客户的规模体量比拟大，利用资源的隔离通过namespace和调度绑定来隔离；
ACK-SAAS：针对 SME/KA 全新开发的 SaaS 平台，所有客户都应用对立的计算资源。

调研阿里云服务网格 ASM

咱们晓得，服务网格作为一种用来治理应用服务通信的根底核心技术, 为应用服务间的调用带来了平安、牢靠、疾速、利用无感知的流量路由、平安、可观测能力。咱们针对开源社区 Istio 和阿里云服务网格 ASM 产品别离进行了调研，通过试用理解到作为云厂商的产品， ASM 具备了若干生产应用的性能和实战经验，具体来说， ASM 加强了多协定反对以及动静扩大能力，提供精细化服务治理，欠缺零信赖平安体系，并继续晋升性能及大规模集群反对能力，升高在生产环境落地服务网格的门槛。商业版实用于有多语言互通，服务精密治理需要，在生产环境大规模应用服务网格的场景。

具体的介绍能够参见：

https://help.aliyun.com/docum…

通过调研，咱们理解到作为业内首个全托管 Istio 兼容的服务网格产品 ASM，一开始从架构上就放弃了与社区、业界趋势的一致性，管制立体的组件托管在阿里云侧，与数据面侧的用户集群独立。ASM 产品是基于社区开源的 Istio 定制实现的，在托管的管制面侧提供了用于撑持精细化的流量治理和平安治理的组件能力。通过托管模式，解耦了 Istio 组件与所治理的 K8s 集群的生命周期治理，使得架构更加灵便，晋升了零碎的可伸缩性。

托管式服务网格 ASM 在成为多种异构类型计算服务对立治理的基础设施中, 提供了对立的流量治理能力、对立的服务平安能力、对立的服务可观测性能力、以及实现对立的代理可扩大能力, 以此构筑企业级能力。能够通过点击”浏览原文”查看具体的内容介绍。

基于上述的调研，咱们决定开始应用阿里云服务网格 ASM 产品进行迁徙。

迁徙到阿里云 ASM

第一轮

第一次注入：ACK-PROD

咱们首先将一个足够规模体量的繁多客户生产环境（门店供应链）（每天 50 万笔订单，1500 万库存流水）注入 Istio，因为这个环境的应用场景不是全天候的，呈现问题会有半个小时的缓冲工夫来解决问题，并且利用零碎做了欠缺的主动弥补，确保在呈现问题咱们勾销 Istio 当前业务也可能失常复原，第一次注入十分胜利。

第二次注入：ACK-PROD

而后咱们将另外一个门店供应链的生产环境也做了 Istio 注入，绝对于第一个环境，规模体量小一点，但业务环境更加简单，有更多的应用服务在运行，第二次注入十分胜利。

第三次注入：ACK-SAAS

随着后面两次的成功实践，咱们在一个更加重要的实时生产零碎（门店全渠道交易）的根底服务局部引入了 Istio，因为这些服务只应用 Golang 编写，都是一些实时处理要求比拟高，但业务绝对简略的，第三次注入胜利。

第四次注入：ACK-SAAS

咱们在生产环境开始注入局部交易链路，注入当前零碎生产可用，在第二天高峰期发现了会有局部服务呈现 istio-proxy crash 导致利用不可用，从而影响了局部利用的失常运行。鉴于对生产环境的审慎，咱们从新复盘了呈现问题的场景，最终失去的论断是：

Java 利用的启动对于资源的要求比拟刻薄，咱们没有提前配置好更加正当的启动参数，将会导致 Java 利用启动迟缓；
查看机制不欠缺，将会导致流量打给还没有齐全准备就绪的服务，此时 K8s 的健康检查机制会在屡次没有响应时会再次重启服务；
Istio Sidecar 默认的设置也会推慢整个 Pod 的启动工夫，之前利用的假如是 15s 内实现启动，随着 Sidecar 代理的注入，有时候会遇到更长的工夫；
Java 利用提供 gPRC 服务的时候，istio-proxy 会呈现某种非凡状况的 Crash，这也是导致生产服务不可用的间接起因。

简略而言，在 istio-proxy 存在局部 bug 的状况下，咱们的利用的疾速启动策略和健康检查机制的不合理，间接导致了注入 Sidecar 代理的局部服务生产不可用。

针对这个问题，咱们在阿里云工程师的反对之下，在另外一个环境复现并做了改良，次要的改良如下：

针对 istio-proxyCRASH 问题，社区曾经有了解决方案，在阿里云工程师的反对下，咱们降级了 Sidecar，并做了 A/B 测试，确定复现了这个 Crash 的场景；
针对 Java 利用一开始调配更多的CPU资源来放慢 Java 利用启动，在测试过程中，如果默认调配 0.2 调整到 1.5，启动工夫最长的会从 6 分钟缩小到 40 秒；
调整 Sidecar 配置，依据利用优化 istio-proxy 的启动速度；

第二轮

在计划失去确认当前，咱们开始了第二轮的 Istio 降级。

第一次注入：ACK-SAAS

咱们将 SaaS 的供应链业务注入 Istio，除了降级过程中遇到局部服务资源有余的问题，其余都十分顺利；

第二次注入：ACK-SAAS-QA

咱们在测试环境复现了启动速度慢的问题，并通过更加正当的启动参数配置验证了在 CPU 初始化申请对于 Java 利用的影响；

第三次注入：ACK-SAAS-QA

A/B 测试 Istio crash 场景，确认新的 Sidecar 曾经修复这个问题；

第四次注入：ACK-SAAS

正式实现全渠道交易的 Istio 生产注入；

第五次注入：ACK-SAAS

将残余的利用全副实现注入。

此外，服务网格 ASM 相比社区 Istio 可能实现更加丰盛的能力，如流量标签、配置推送优化等能力。在理论的利用场景中，咱们充分利用配置推送优化能力。在默认状况下，因为无奈确定数据立体内所有工作负载与服务之间的关系，服务网格数据立体内的所有 Sidecar 都必须保留数据立体集群内所有服务信息的全量配置。同时，一次针对管制立体或数据立体的批改（例如在管制立体新建一条虚构服务规定），都会导致管制立体向数据立体的所有 Sidecar 推送新的配置。

而在咱们的数据立体 Kubernetes 集群中的工作负载数量比拟多，默认状况下会减少 Sidecar 对数据立体集群的资源耗费，同时管制立体会面临较大的配置推送累赘，升高管制立体的效率与可用性。ASM 提供了选择性服务发现和 Sidecar 资源举荐性能，帮忙优化配置推送效率。

服务网格 ASM 能够通过剖析数据立体 Sidecar 产生的拜访日志获取数据立体服务之间的调用依赖关系，为数据立体中的每个工作负载主动举荐 Sidecar 资源。为工作负载举荐 Sidecar 资源后：

Sidecar 配置内将仅保留该 Sidecar 对应工作负载所依赖的服务信息。
当该 Sidecar 资源对应的工作负载无依赖关系的服务产生扭转，或与该服务相干的资源产生扭转（例如虚构服务等），都不会引起管制立体向该 Sidecar 的配置推送。

服务网格ASM 通过拜访日志剖析主动举荐 Sidecar CR

通过优化后， Sidecar 配置大小从原来的 40 多M缩小为 5M, 管制面配置推送工夫也随之大大减少。

总之，通过一个多月的重复测试和确认，咱们终于实现了基于服务网格 ASM 的外围生产零碎切换，绝对于之前的服务网格计划，给咱们带来了很多好处。

计划劣势及停顿布局

齐备的可观测性以及利用监控

通过服务网格对应的管制面盘，咱们发现了很多之前利用自身的问题，比方：

不合理的利用弥补策略
不合理的利用部署（比方把大数据查问和利用解决放在同一个服务）
不合理的利用报错
…

而这些问题随着服务网格的上线，咱们变得一清二楚，进而十分不便的推动利用架构的革新。

流量与资源的平衡

这是咱们上线服务网格的初衷，随着咱们将所有利用放到服务网格，咱们真正做到了在 CPU、内存、网络利用率的平衡，通过通过利用调用的监控来看，所有申请数量和谬误也十分平衡的调配在不同的 Pod 上，不必再去放心随着流量的增长因为负载不平衡而导致横向扩大生效。

更加弱小的流量治理能力

在没有 Istio 之前，咱们基于本身业务须要做了一些“手工”的流量治理工作，比方：

货色流量：基于基于租户与门店的流量隔离，容许咱们能够容许须要针对某一个租户某一个门店公布指定服务
南北流量：针对业务场景进行灰度测试，比方某一个租户的美团订单解决应用新的接单服务
为某个租户提供自定义域名
…

这些工作都是基于 K8s CRD 构建的，随着服务网格的上线，咱们发现 Istio 能够帮忙咱们实现更多，比方灰度公布、熔断、限流、流量标签等。这些能力将在将来继续一直晋升咱们线上业务的稳定性。

关于阿里云:合阔智云核心生产系统切换到服务网格-ASM-的落地实践

背景

技术现状

以后挑战

基于服务网格 ASM 的摸索

集群现状

调研阿里云服务网格 ASM

迁徙到阿里云 ASM

第一轮

第二轮

计划劣势及停顿布局

齐备的可观测性以及利用监控

流量与资源的平衡

更加弱小的流量治理能力

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于阿里云:合阔智云核心生产系统切换到服务网格-ASM-的落地实践

背景

技术现状

以后挑战

基于服务网格 ASM 的摸索

集群现状

调研阿里云服务网格 ASM

迁徙到阿里云 ASM

第一轮

第二轮

计划劣势及停顿布局

齐备的可观测性以及利用监控

流量与资源的平衡

更加弱小的流量治理能力

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复