关于后端:阿里云-ACK-容器服务生产级可观测体系建设实践

简介：随着容器被越来越对企业接收与落地，可观测成为重点。那么，让咱们深刻理解阿里云 ACK 容器服务生产级可观测体系建设实际，为本身业务可观测提供参考～作者：冯诗淳（行疾）ACK 可观测体系介绍全景概要介绍

上图为 ACK 可观测体系全景图金字塔，从上至下可分为四层：最上层是最靠近用户业务的 Business Monitoring，包含用户业务的前端的流量、PV、前端性能、JS 响应速度等监控。通过容器服务的 IngressDashboard 来监测 Ingress 的申请量以及申请的状态，用户能够定制业务日志，通过容器服务的日志监控来实现业务的自定义监控。第二层是 Application Performance Monitoring，包含用户的利用监控，由 ARMS APM 产品提供用户 Java Profiling 和 Tracing 等能力，也反对 OpenTracing 和 OpenTelemetric 协定的多语言监控计划。第三层是 Container Monitoring，包含容器的集群资源、容器 runtime 层、容器引擎以及容器集群的稳定性。应用阿里云 Prometheus 在一张 Global view 的大盘中展现不同集群层面的资源利用，包含性能、水位、云资源，也包含事件体系和日志体系，由事件核心和日志核心笼罩。最上层是 Infrastructure Monitoring，包含不同的云资源、虚拟化层、操作系统内核层等。容器层和基础架构层都能够应用基于 eBPF 的无侵入式架构和 K8s 监控能力做网络和调用的 tracing。可观测体系的每一层都和可观测的三大支柱 Logging、Tracing、Metrics 有不同水平的映射。场景一：异样诊断场景的可观测能力实际

用户的异样诊断案例早上 9 点多业务流量激增时呈现了异样诊断，收到容器报警提醒某 Pod Down 影响业务流量。用户收到报警后快速反应，对外围业务的 Pod 进行重启或扩容，查找问题根因。首先通过 IngressDashboard 从入口流量自上而下剖析，发现对外业务的拜访成功率降落以及呈现 4XX 返回码的申请，阐明这次异样影响了用户业务。再从资源以及负载层面剖析，能够发现是因为朝九晚五的流量导致水位负载，在当天早上 9 点时存在与故障对齐的显著水位飙升，这也是故障所在。零碎第一工夫报警外围业务的 Pod 定位，联合业务日志进行剖析，加上 ARMS Java 的 APM 利用监控，定位到产生缓存 bug 是因为早上 9 点钟业务流量飙升引发了 bug 最初造成频繁的数据库读写，调用链也反映可能呈现了数据库的慢查问, 最初通过修复 bug 彻底闭环整个异样。上述流程是十分典型的贯通了整个 ACK 可观测不同能力异样诊断的排查过程，可能帮忙咱们更好地了解 ACK 可观测体系如何互相协调实现工作。事件体系介绍

社区的 K8s 中蕴含了十分成熟的事件体系，提供了应用层的事件以及 runtime 层的事件。ACK 可观测体系在社区的事件体系之上，从表层到底层都进行了笼罩和加强，做到了可观测事件体系的全笼罩。利用异样：对于 K8s 的利用事件提供了用户灰度公布以及 HPA 等异样行为的事件监控。管控操作事件：减少了集群的管控事件、用户对集群的异样操作以及重要变更，甚至包含老本和估算超标等。集群外围组件异样：集群的稳定性很大一部分由集群外围组件的衰弱来保障。对于集群外围组件包含 API server、ETCD、Scheduler、CCM 等都做了异样事件的加强，出现异常事件可能第一工夫进行触达。此外，还包含用户侧外围组件 addon 事件，比方 Terway、存储等。集群容器引擎层异样：对集群容器引擎层做了加强，包含了 Container Runtime、Kubelet、Cgroup 等异样。节点异样：包含 OS/ 内核层异样，比方操作系统内核宕机、操作系统配置的异样等，也包含资源层异样比方网络资源异样、存储资源异样、其余云资源异样等，为容器服务的运维保障及性能更强的笼罩提供了反对。

ACK 提供了开箱即用的事件核心能力，一键开启事件核心，即可享受简单的事件体系带来的弱小性能。它提供了预置的试验核心大盘，可能对重要的事件进行突出以及统计，也提供了弱小、灵便易用的数据分析能力，为前面基于事件驱动的 OPS 体系提供了根底。ACK K8s 集群更多的是对资源的生命周期进行管控，事件核心也提供了以事件为锚点的资源生命周期的管控能力。能够对生命周期中最重要的几个工夫点进行性能的调试优化以及对异样 Pod 状态快速反应。日志体系介绍

Logging 在 K8s 中的第一个应用场景是重要流量，如 Ingress 等。ACK 的日志核心默认提供了 Ingress 等重要场景的大盘，一键接入 Ingress 大盘后即可疾速查看集群 Ingress 流量，此外还包含 PV、UV、利用的异样状态以及统计，疾速清晰，易于利用。第二个日志应用场景是审计。集群中的资源常常被不同的账号拜访应用，集群的平安也迫切需要重点关注。咱们提供了审计日志大盘，能够疾速剖析集群资源的拜访和应用轨迹，针对未被受权的拜访可进行报警和预警，为集群提供更平安的环境。咱们提供了云原生无侵入式的日志获取形式，用户只需通过简略的 CRD 或在 Pod 上打 annotation，即可将日志采集到日志核心，并享受日志核心多维、弱小的剖析能力。Metric 体系介绍

Metrics 体系是做稳定性保障和性能调优时最罕用的体系，水位等要害指标都能通过大盘进行直观展现。产品侧预置了 ARMS Prometheus 大盘产品，购买了 ACK K8s 集群后，能够一键开启 Prometheus 大盘。此外，体系内预置了重要场景的 Prometheus 大盘，都是通过 K8s 上业务运维成熟教训的积淀。Prometheus 计划波及到不同的服务，不仅包含容器服务侧最外围的 K8s 利用、网络、外围管制面指标，还包含比方 AI 场景、GPU 指标以及存储 CSI 等内部存储场景，以及资源的优化或老本的优化指标。应用对立的 Prometheus 数据链路计划，不进可能反对容器场景的指标，也反对不同云产品的指标以及云产品上不同中间件的指标，能够将所有层级指标都在 Prometheus 数据链路中进行对立展现。ACK 集群管制面的外围组件 API Server、ETCD、scheduler、CCM 等也做了指标增强。Pro 集群不只负责托管这部分外围组件、保护其 SLA，同时也会将通明指标性能裸露给用户，让用户应用安心。场景二：稳定性保障 – 2022 冬奥会 ACK 助力圆满安稳举办

指标场景是稳定性保障的重要反对能力。ACK 十分荣幸地为 2022 年的冬奥会服务，助力冬奥零碎圆满安稳运行。ACK 集群中部署了冬奥会多个外围业务零碎，包含冬奥的国内官网、较量场馆、票务零碎等，为多个外围零碎保驾护航。外围零碎多为 Java 系微服务架构，理论应用时有近千个 Deployment 实例。咱们通过引入压测的形式进行容量评估，同时配合为冬奥定制的首屏运维大盘，实时进行利用和集群稳定性的保障，保障了冬奥访零碎拜访的顺滑。场景三：生产级规模集群稳定性保障实际

很多用户的生产零碎规模很大，达到千级别节点的集群规模后，用户在集群上会进行密集、大规模的集群资源拜访，极易呈现集群稳定性问题。比方，用户在大规模集群中频繁密集地拜访集群资源，首先会使 API Server 的申请数较高，API ServerMutating 申请数也会处于高位。API Server 负载过高会导致呈现抛弃申请的状况，这也是 API Server 的降级个性，会影响用户业务的公布或用户的变更。再比方，密集的集群资源拜访也可能打满 API Server 带宽，API Server 的申请延时 RT 会升至高位，一次 API 的拜访可能须要几十秒，会重大影响用户的业务，API Server 的只读申请数也会飙升。咱们提供了 control plane 外围组件的监控大盘，能够疾速发现 API Server 的水位和申请响应工夫的延时问题，而后依据 API Server 的拜访日志疾速定位是哪个利用的什么动作导致 API Server 的水位和资源申请高，最终找到具体利用进行止血，解决问题。Prometheus For ACK Pro

阿里云近期推出了 Prometheus for ACK Pro，它是 Prometheus 的降级服务，可能在同一张大盘上看到多个数据源，包含集群事件日志、基于 eBPF 的无侵入式的利用指标、网络指标等，提供一致性的体验。用户能够通过一张大盘的关联剖析逻辑，从总览到细节，通过多数据源、多角度的可观测能力进行不同角度的排查。Tracing 体系介绍应用层 Trace

在 ACK 可观测体系里，Tracing 体系提供了最终定位根因的能力，它分为两局部: 第一局部是应用层的 Tracing，提供 ARMS APM 能力，反对 OpenTracing、OpenTelemetric 协定，能够反对多种语言的利用。针对 Java 也提供了无侵入式的 APM 能力，只须要在 Pod 上打上 annotation，Java 利用的 Pod 即可享受实时的监控数据服务，能够查看实时的利用水位、JVM 的性能指标、利用上下游分布式和微服务的全局调用 top 图等，也反对 Profiling 以及代码堆栈级的调用监控能力。不同语言能够汇聚成同一张分布式调用追踪大图，自上而下地查看一次分布式调用，从而定位、诊断问题。集群网络、调用 Trace

第二局部是集群网络和调用 Trace。近期咱们推出了基于 eBPF 网络层面的 Tracing 能力。通过 eBPF 插桩技术，在内核层面实现了零代码改变且非常低性能耗费的网络 Tracing 能力。提供了全局拓扑、疾速定位问题调用链的网络拓扑展现以及资源层面展现，也反对在对立的全局架构视图中汇合 Metrics、Tracing 和 Logging 多个角度进行可观测能力察看。基于 ACK 可观测能力建设 AIOps 体系

事件驱动的 AIOps 体系，用户能够将事件作为对立的驱动数据源进行问题的发现、触达以及 AI 智能化运维操作的桥梁。以 ACK 事件核心为外围，结构了对立的事件格局标准，K8s 的事件会以对立的事件配置格局提供给用户，最初以事件核心为外围，通过对立的事件处理流提供给用户。用户能够通过订阅事件做事件的智能化运维以及构建其体系。用户能够通过某个利用的业务进行业务事件推送，并对业务事件进行智能化运维解决，比方智能的扩容或缩容等。此外，咱们也提供了 ACK 报警核心，通过对立的报警配置为用户构建 AIOps 的体系，帮忙用户疾速建设运维的订阅、收发和问题排障、解决体系。

报警核心会为用户提供对立的配置，帮忙用户疾速建设 ACK 场景上异样诊断的异样规定集。ACK 报警核心提供了开箱即用的报警能力，积淀了罕用的容器场景异样规定集，开箱即用。其次，能够通过报警音讯的细粒度订阅关系构建 ITOps 体系，不同的异样能够通过报警核心的订阅配置关系投递到真正可能解决异样的人手里。ACK 也积淀了规范的异样以及对应规范异样解决的 SOP 手册，发现报警时，会提醒异样类型，以及为用户提供解决异样的规范 SOP 修复流程。基于 ACK 可观测能力建设 FinOps 体系

越来越多的用户面临了上云阶段或上云后治理阶段的降本增效问题，次要存在以下几个方面的痛点：上云之前——如何上云，难布局；上云之后——云产品种类丰盛，集群资源类型也丰盛，计费难；高度 SaaS 化的利用部署在同一个集群中进行共享，老本分账难；每年都会有新的业务生成和下线，集群和资源的应用关系是动静的，难以进行继续的优化和治理；此前个别应用 Excel 表对能力进行治理，在云原生的场景下有丰盛的用户利用和有丰盛的账单资源类型，难以治理。ACK 提供了云原生企业 IT 老本治理计划，通过多维度的老本摊派和估算模型，为集群的资源进行老本估算和摊派。能够通过根因的下钻和趋势的预测进行老本洞察，集群上多个利用业务的老本能够细粒度下钻，进行老本拆分。对多集群场景上的老本提供了成熟的解决方案笼罩，以及提供企业云原生 IT 老本治理的专家服务。此外，咱们还推出了内置的利用资源画像以及利用资源的智能举荐，能够为资源举荐适合的老本以及进行估算管制，最初会依据不同的场景进行老本优化，如大数据、AI、游戏等。最初，反对多样化场景，包含多云和混合云等都能在对立的立体进行展现和治理。客户案例

中华财险作为互联网金融的头部公司，有千核级别的集群规模，同时治理运维多个 SaaS 化线上业务，具备高度多租化、对业务稳定性要求高、对业务资源 / 老本趋势敏感度低等行业特点。中华财险从传统 IT 架构到云原生化的过程中，面临着容量布局难、算清老本难、闲置资源难发现以及老本优化和业务稳定性难以均衡的挑战。咱们通过 ACK 的老本治理解决方案为它进行了压测、容量布局，通过 ACK 老本剖析进行业务分账的账单治理和剖析，解决了闲置资源的优化，为其提供了分配资源的优化策略，最初通过容器服务提供了细粒度的容器部署以及弹性策略等优化伎俩。上云前，客户集群的资源分配闲置率高达 30%+，而通过咱们提供的老本治理计划，闲置率降至 10% 以下，为行业领先水平。理解更多可观测能力，点击此处。原文链接：https://click.aliyun.com/m/10… 本文为阿里云原创内容，未经容许不得转载。