关于阿里云:链路分析-KO-五大经典问题

59次阅读

共计 3094 个字符，预计需要花费 8 分钟才能阅读完成。

作者：涯海

提起链路追踪，大家会很天然的想到应用调用链排查单次申请的异样，或应用预聚合的链路统计指标进行服务监控与告警。其实，链路追踪还有第三种玩法：相比调用链，它可能更快的定界问题；相比预聚合的监控图表，它能够更灵便的实现自定义诊断。那就是基于明细链路数据的后聚合剖析，简称链路剖析。

链路剖析是基于已存储的全量链路明细数据，自由组合筛选条件与聚合维度进行实时剖析，能够满足不同场景的自定义诊断需要。 比方，查看耗时大于 3 秒的慢调用时序散布，查看谬误申请在不同机器上的散布，查看 VIP 客户的流量变动等。接下来本文将介绍如何通过链路剖析疾速定位五种经典线上问题，更直观的理解链路剖析的用法与价值。

基于后聚合的链路剖析用法非常灵活，本文仅列举五种最典型的案例场景，其余场景欢送大家一起摸索分享。

流量不均导致的“热点击穿”问题，很容易造成服务不可用，在生产环境中呈现过多起这样的案例。比方负载平衡配置谬误，注册核心异样导致重启节点的服务无奈上线，DHT 哈希因子异样等等。

流量不均最大危险在于是否及时发现“热点”景象，它的问题表象更多是服务响应变慢或报错，传统监控无奈直观反映热点景象，所以大部分同学都不会第一工夫思考这个因素，从而节约了贵重的应急解决工夫，造成故障影响面一直扩散。

通过链路剖析按 IP 分组统计链路数据，疾速理解调用申请散布在哪些机器上，特地是问题产生前后的流量散布变动，如果大量申请忽然集中在一台或大量机器，很可能是流量不均导致的热点问题。再联合问题产生点的变更事件，疾速定位造成故障的谬误变更，及时回滚。

单机故障每时每刻都在频繁产生，特地是外围集群因为节点数量比拟多，从统计概率来看简直是一种“必然”事件。单机故障不会造成服务大面积不可用，但会造成大量用户申请失败或超时，继续影响用户体验，并造成肯定答疑老本，因而须要及时处理这类问题。

单机故障能够分为宿主机故障和容器故障两类（在 K8s 环境能够分为 Node 和 Pod）。比方 CPU 超卖、硬件故障等都是宿主机级别，会影响所有容器；而磁盘打满，内存溢出等故障仅影响单个容器。因而，在排查单机故障时，能够依据宿主机 IP 和容器 IP 两个维度别离进行剖析。

面对这类问题，能够通过链路剖析先筛选出异样或超时申请，依据宿主机 IP 或容器 IP 进行聚合剖析，疾速判断是否存在单机故障。如果异样申请集中在单台机器，能够尝试替换机器进行疾速复原，或者排查该机器的各项零碎参数：比方磁盘空间是否已满、CPU steal time 是否过低等。如果异样申请扩散在多台机器，那大概率能够排除单机故障因素，能够重点剖析上游依赖服务或程序逻辑是否异样。

新利用上线或大促备战时通常须要做一次系统性的性能调优。第一步就是剖析以后零碎存在哪些性能瓶颈，梳理出慢接口的列表和呈现频率。

此时，能够通过链路剖析筛选出耗时大于肯定阈值的调用，再依据接口名称进行分组统计，这样就能够疾速定位慢接口的列表与法则，而后对呈现频率最高的慢接口逐个进行治理。

找到慢接口后，能够联合相干的调用链、办法栈和线程池等数据定位慢调用根因，常见起因包含以下几类：

数据库 / 微服务连接池过小， 大量申请处于获取连贯状态，能够调大连接池最大线程数解决。
N+1 问题， 比方一次内部申请外部调用了上百次的数据库调用，能够将碎片化的申请进行合并，升高网络传输耗时。
单次申请数据过大， 导致网络传输和反序列化工夫过长且容易导致 FGC。能够将全量查问改为分页查问，防止一次申请过多数据。
日志框架“热锁”， 能够将日志同步输入改为异步输入。

在理论生产环境中，服务通常是标准化的，但业务却须要分类分级。同样的订单服务，咱们须要依照类目、渠道、用户等维度进行分类统计，实现精细化经营。比方，对于线下批发渠道而言，每一笔订单、每一个 POS 机的稳定性都可能会触发舆情，线下渠道的 SLA 要求要远高于线上渠道。那么，咱们如何在通用的电商服务体系中，精准的监控线下批发链路的流量状态和服务质量呢？

在这里，能够应用链路剖析的自定义 Attributes 过滤和统计实现低成本的业务链路剖析。比方，咱们在入口服务针对线下订单打上一个 {“attributes.channel”: “offline”} 的标签，而后再针对不同门店、用户客群和商品类目别离打标。最初，通过对 attributes.channel = offline 进行过滤，再对不同的业务标签进行 group by 分组统计调用次数、耗时或错误率等指标，就能够疾速的剖析出每一类业务场景的流量趋势与服务质量。

变更三板斧“可灰度、可监控、可回滚”，是保障线上稳定性的重要准则。其中，分批次灰度变更是升高线上危险，管制爆炸半径的要害伎俩。一旦发现灰度批次的服务状态异样，应及时进行回滚，而不是持续公布。然而，生产环境很多故障的产生都是因为不足无效的灰度监控导致的。

例如，当微服务注册核心异样时，重启公布的机器无奈进行服务注册上线。因为不足灰度监控，前几批重启机器尽管全副注册失败，导致所有流量都集中路由到最初一批机器，然而利用监控的总体流量和耗时没有显著变动，直至最初一批机器也重启注册失败后，整个利用进入齐全不可用状态，最终酿成了重大的线上故障。

在上述案例中，如果对不同机器流量进行版本打标 {“attributes.version”: “v1.0.x”}，通过链路剖析对 attributes.version 进行分组统计，能够清晰的辨别公布前后或不同版本的流量变动和服务质量。不会呈现灰度批次异样被全局监控覆盖的状况。

链路剖析尽管应用起来非常灵活，能够满足不同场景的自定义诊断需要。然而它也有几点应用束缚限度：

基于链路明细数据进行剖析的老本较高。 链路剖析的前提是尽可能残缺的上报并存储链路明细数据，如果采样率比拟低导致明细数据不全，链路剖析的成果就会大打折扣。为了升高全量存储老本，能够在用户集群内部署边缘数据节点，进行长期数据缓存与解决，升高跨网络上报开销。或者，在服务端进行冷热数据拆散存储，热存储进行全量链路剖析，冷存储进行错慢链路诊断。
后聚合剖析的查问性能开销大，并发小，不适宜用于告警。 链路剖析是实时的进行全量数据扫描与统计，查问性能开销要远大于预聚合统计指标，所以不适宜进行高并发的告警查问。须要联合自定义指标性能将后聚合剖析语句下推至客户端进行自定义指标统计，以便反对告警与大盘定制。
联合自定义标签埋点，能力最大化开释链路剖析价值。 链路剖析不同于规范的利用监控预聚合指标，很多自定义场景的标签须要用户手动埋点打标，这样能力最无效的辨别不同业务场景，实现精准剖析。

链路数据蕴含着丰盛的价值，传统的调用链和服务视图只是固定模式下的两种经典用法，基于后聚合的链路剖析能够充沛开释诊断的灵活性，满足任意场景、维度的自定义诊断需要。联合自定义指标生成规定，更是能够极大的晋升监控告警的精密度，为你的 APM 插上“自在的翅膀”，举荐大家一起来体验、摸索和分享！

点击此处，理解更多链路追踪信息！

正文完

阿里云

发表至：阿里云

2021-12-16

0

关于阿里云:支撑-千万设备日活-的创米数联-7-年微服务架构演进之路

关于阿里云:云原生-AI-工程化实践之-FasterTransformer-加速-LLM-推理

关于阿里云:极氪汽车的云资源治理细探

关于阿里云:重磅阿里云云原生合作伙伴计划全新升级加码核心权益与伙伴共赢新未来

关于算法:有环或无环单链表的相交问题

关于阿里云:链路分析-KO-五大经典问题

链路追踪的“第三种玩法”

链路剖析 K.O“五大经典问题”

【流量不均】负载平衡配置谬误，导致大量申请打到大量机器，造成“热点”影响服务可用性，怎么办？

【单机故障】网卡损坏 /CPU 超卖 / 磁盘打满等单机故障，导致局部申请失败或超时，如何排查？

【慢接口治理】新利用上线或大促前性能优化，如何疾速梳理慢接口列表，解决性能瓶颈？

【业务流量统计】如何剖析重保客户 / 渠道的流量变动和服务质量？

【灰度公布监控】500 台机器分 10 批公布，如何在第一批灰度公布后，就能疾速判断是否有异样？

链路剖析的约束条件

链路剖析为 APM 插上“自在的翅膀”

Just My Socks（注册教程内含优惠码）

关于阿里云:链路分析-KO-五大经典问题

链路追踪的“第三种玩法”

链路剖析 K.O“五大经典问题”

【流量不均】负载平衡配置谬误，导致大量申请打到大量机器，造成“热点”影响服务可用性，怎么办？

【单机故障】网卡损坏 /CPU 超卖 / 磁盘打满等单机故障，导致局部申请失败或超时，如何排查？

【慢接口治理】新利用上线或大促前性能优化，如何疾速梳理慢接口列表，解决性能瓶颈？

【业务流量统计】如何剖析重保客户 / 渠道的流量变动和服务质量？

【灰度公布监控】500 台机器分 10 批公布，如何在第一批灰度公布后，就能疾速判断是否有异样？

链路剖析的约束条件

链路剖析为 APM 插上“自在的翅膀”

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）