关于阿里云:统一观测丨使用-Prometheus-监控云原生网关我们该关注哪些指标

作者： 如葑

可观测体系的概念由来已有，随着散布式微服务迅猛发展，对可观测体系的依赖也越来越深，可观测体系通常包含 Metrics、Tracing、Logging 三类数据，再外加报警机制，即可形成残缺的监控报警机制，业界对可观测也有系统性阐明，如下：

回到咱们日常问题排查，根本门路大抵分为 Detect（检测）、Troubleshoot（问题初步定位）、Pinpoint（精确定位）三个阶段，其别离对应可观测的三局部内容：Metrics、Traces、Logs，置信读到这里您曾经了解 Metrics 指标的重要性了，它是咱们发现问题的首要伎俩。

咱们心愿应用指标来检测问题，首先咱们要定义各种指标，指标的定义多种多样，不同的业务利用也都会有其合乎本身要求的一些指标，但咱们依然能够对指标做一些粗粒度的分类，如下

其中最受关注的无疑是外围业务指标，其重要性毋庸置疑，例如所有业务都会具备的三大外围指标：QPS、成功率、RT，其次是根底指标与其余指标。所以任何利用肯定要保障外围业务指标精确与实时。同时，搭配根底指标能力对问题发现实现事倍功半的成果，尤其是程序运行期的一些问题。

聚焦于网关的可观测场景，网关的职责是高效的将合乎某组个性的流量转发给指标服务，外围次要在于对网络流量的解决，三大外围指标：QPS、成功率、RT 仍然是反映服务外围运行状况的外围指标。

值得阐明的是，在网关场景中三大指标并不能齐全实在反映网关理论运行状况，三大指标异样抖动经常跟后端服务抖动相干。因而，理论观测中咱们将网关分为 Downstream 指标（观测 Client 侧的指标汇合）、Upstream 指标（观测上游 Service 服务维度的指标汇合 )、路由指标（观测路由转发规定维度的指标汇合）。同时，网关作为流量入口还有一些功能性指标，如解压缩 GZip、认证鉴权 Authz 等指标。

理论利用中还会有其余网络指标如接手、发送的数据量等，限于篇幅就不进行赘述。

在虚拟化期间的微服务架构下，业务通常采纳流量网关 + 微服务网关两层架构，流量网关负责南北向流量调度和平安防护，微服务网关负责东西向流量调度和服务治理。而在容器和 K8s 主导的云原生时代，Ingress 成为 K8s 生态的网关规范，赋予了网关新使命，使流量网关 + 微服务网关合二为一成为可能。MSE 云原生网关正是在这种背景下诞生，其基于阿里开源 Higress [ 1] 构建，在能力不打折的状况下将两层网关二合一，不仅能够节俭 50% 的资源部署老本，还极大升高运维及应用老本。

MSE 云原生网关 [ 2] 与阿里云利用实时监控服务 ARMS、Prometheus 监控深度集成，在网关场景下提供 Metrics、Tracing、Logging 残缺可观测体系，为用户带来一站式可观测体系能力，升高可观测的应用门槛。

接下来咱们简要介绍下 Metrics 指标在 MSE 云原生网关的理论利用。

对于 CPU、Memory 等根底指标建设了独立指标大盘“资源监控”，不便一键查看网关以后的资源应用状况。

对于外围的业务指标也构建了独立指标大盘，包含“全局看板”、“业务 TOP 榜”、“拜访核心”、“灰度比照看板”。

全局看板

“全局看板”提供网关整体的指标大盘，帮忙用户从全局视角查看网关以后的运行状况。

业务 TOP 榜

提供网关视角的以后 Top 10 的后端服务解决申请的大盘，帮忙用户疾速查看以后高吞吐的服务详情。

拜访核心

提供网关以后 Downstream、Upstream、Service 与功能性的指标大盘，指标有 Downstream 的 QPS\RT\ 成功率 \ 连接数等，也提供 Upstream 的连接数、RT P99、RT P90 等，而且还有 GZIP 压缩、鉴权等指标。

灰度比照看板

提供应用多服务计划做灰度公布时比照查看流量状况。

MSE 云原生网关也提供单个服务级的指标，例如惯例的在单个服务中划分多个版本进行灰度，而后对各个版本做指标观测。

在网关中路由规定代表蕴含某些特色的一组流量，通常运维时或者问题定位时咱们也须要可能查看具体的某组路由流量状况，MSE 云原生网关也提供路由级的指标。

Metrics 指标是用于观测利用运行态的重要伎俩，在指标异样时咱们心愿能被动发现，这就离不开告警，MSE 云原生网关集成阿里云 ARMS 后也内置了一些告警模板，内置告警模板是咱们依据日常网关运维教训提炼的一些外围告警规定，例如网关的外围指标：CPU 使用率、内存使用率、申请成功率、申请 RT 等，不便用户疾速配置告警，同时用户也能够依据本身需要自定义新的告警模板，这里就不再一一开展。

网关作为流量入口，在繁多服务的异样中，异样流量造成的绝对值变动可能并不显著，此时配置同比 / 环比的告警是相当重要的，比方配置服务流量同比上涨，谬误数同比上涨等告警，可能无效发现绝对值变动不显著，同一维度绝对变动显著的异样。

网关作为流量入口，在后端服务呈现 rt 抖动时，网关往往是客户想到的首要排查对象，如何基于 Metrics 指标在网关场景中疾速定位问题是十分重要的，如下图是基于 MSE 云原生网关提供的指标大盘来疾速定位问题的大抵流程。

后端服务抖动常见的起因有上面两点：

因为 Java gc 或者类加载导致纪录的耗时和理论有偏差。
后端利用内核参数配置不合理无奈及时 accept 连贯，导致网关纪录的服务耗时迅速增长。

单服务应用不同版本进行灰度测试的场景很常见，例如上面有服务 go-httpbin，以后版本是 go-httpbin-v1，新增了 go-httpbin-v2 版本进行新性能灰度测试。

go-httpbin-v2 版本上线后用户反馈 go-httpbin 服务的申请解决工夫变慢了，即申请 RT 变长了，如何通过观测指标疾速查看新版本的申请状况呢？能够通过 MSE 云原生网关路由级的指标查看，如下图：

Prometheus 监控反对企业云监控集成和云产品自监控集成，您能够通过 Prometheus 监控提供的指标、大盘以及告警来查看这些云产品的监控数据。目前，您能够在对应的 MSE 云原生网关云产品控制台开启 Prometheus 监控，开启之后，该云产品会显示在 Prometheus 服务的云产品自监控集成页面的已集成区域，则示意该云产品已胜利接入。

登录 Prometheus 控制台。
在左侧导航栏单击实例列表，进入 Prometheus 监控的实例列表页面。
在实例列表中单击实例名称为云服务实例的 Prometheus 实例，进入集成核心页面。

您能够在对应的 MSE 云原生网关云产品控制台开启 Prometheus 监控，开启之后，该云产品会显示在 Prometheus 服务的云产品自监控集成页面的已集成区域，则示意该云产品已胜利接入，即可在 Prometheus 看到相干大盘。

Prometheus 作为目前最支流的可观测开源我的项目之一，曾经被泛滥企业所广泛应用。但在理论生产过程中，还是遇到各种各样问题，其中包含：

因为平安、组织治理等因素，用户业务通常部署在多个互相隔离的 VPC，须要在多个 VPC 内都反复、独立部署 Prometheus，导致部署和运维老本高。
每套残缺的自建观测零碎都须要装置并配置 Prometheus、Grafana、AlertManager 等组件，部署过程简单、施行周期长，并且每次降级都须要对每个组件进行保护。
随着监控规模不断扩大，资源耗费呈非线性疾速减少，零碎可用性无奈失去保障。
对于云原生网关，自建 Prometheus 无奈监控到，导致无奈实现一站式、全局视角的监控建设。
开源分享的网关大盘不够业余，却少开箱即用的丰盛指标，不能帮忙用户更迅速的的理解网关的整体运行状况

针对以上问题，阿里云 Proemtheus 监控进行了以下几个方面的优化：

为了进一步进行性能优化，阿里云 Prometheus 监控将 Agent 部署在用户侧，保留原生采集能力同时，尽量应用起码资源；通过采集存储拆散架构，进步整体性能；采集组件优化，晋升单正本采集能力，升高资源耗费；通过多正本横向扩大平衡合成采集工作，实现动静扩缩，解决开源程度扩大问题。采集 / 数据处理 / 存储组件反对多副版本，保障外围数据链路高可用；基于集群规模可间接进行弹性扩容；反对数据重传，彻底解决抛弃逻辑弊病，确保数据完整性与准确性。

同时，为了应答大规模数据、长时间区间的查问场景，通过 DAG 执行优化、算子下推，晋升大规模数据查问性能并反对长时间区间秒级查问；通过 Global DataSource 和 Global View 实现对多集群对立监控与跨集群聚合查问。

在提供企业级能力强化同时，全方位升高企业应用 Prometheus 的 IT 运维老本。通过包年包月、按量付费等多种计费形式让费用收入与布局更加清晰与灵便，相较于开源版本节俭 37% 以上。

云产品在各自控制台都提供本身产品的可观测性，但这些云产品的指标及看板散落在各控制台，且无奈进行精细化的指标数据利用。Prometheus 服务提供云产品监控性能，将这些数据进行对立展示、查问、告警，为运维团队提供更加便捷的日常运维监控界面。

想要更好、更疾速的出现相干指标图表，阿里云 Prometheus 监控预置 Grafana 组件，预置常见云服务、利用等看板模板，如利用实时监控服务 ARMS、云监控 CMS、日志服务 SLS、阿里云 Elasticsearch 等云服务，提供各种云服务的数据源配置及预置大盘，实现各种可观测数据的对立展现。如容器、音讯队列 Kafka 等，进一步提供 GrafanaPro 大盘，帮忙运维进行更加精细化的指标观测。在预置看板之外，能够通过 Grafana 官网自在减少新插件，增加新的可视化模板以及数据源，进一步满足个性化运维监控需要。

MSE 云原生网关默认提供了丰盛的 Metrics 指标大盘，配合阿里云 Prometheus 监控提供开箱即用的残缺可观测性能力，可能帮忙用户快捷、高效的搭建本身的微服务网关与对应的可观测体系。后续咱们会继续在产品的性能、易用性、稳定性和生态方面继续打磨，以便用户无门槛的享受到云原生技术的红利。目前，Prometheus 监控及 MSE 提供多种优惠活动：

Prometheus 监控包年包月中小规格首月收费
MSE 云原生网关、注册配置核心专业版首购 8 折优惠，首购 1 年及以上 7 折优惠

扫码理解 Prometheus 监控产品详情~

扫码理解 MSE 云原生网关产品详情~

[1] Higress

http://higress.io/zh-cn/

[2] MSE 云原生网关

https://www.aliyun.com/produc…

点击此处查看 Prometheus 监控产品

关于阿里云:统一观测丨使用-Prometheus-监控云原生网关我们该关注哪些指标

Metrics 指标在可观测体系的利用

Metrics 指标的分类

Metrics 指标在网关场景的利用

MSE 云原生网关在可观测体系的实际

MSE 云原生网关 Metrics 指标大盘介绍

根底指标

外围指标

全局看板

业务 TOP 榜

拜访核心

灰度比照看板

细粒度服务级的指标

细粒度路由级的指标

MSE 云原生网关告警规定介绍

应用同比 / 环比数据发现异常

Metrics 指标在网关问题排查中的利用

问题 1：后端服务抖动导致的成功率降落

问题 2：后端服务新增灰度版本后申请 RT 大幅减少

链接网关指标观测场景下，如何接入阿里云 Prometheus 监控

自建 Prometheus 与阿里云 Prometheus 监控的优劣比照

一、性能强化 & 升高资源耗费，压降 IT 运维老本

二、与 MSE 云原生网关等云服务深度集成

三、Grafana 看板加强，让云服务监控更简略

总结 & 产品优惠

相干链接