关于分布式系统:分布式系统关键路径延迟分析实践

作者 | 月色如海

导读
随着对用户体验的一直谋求，提早剖析成为大型分布式系统中不可或缺的一环。本文介绍了目前在线服务中罕用的提早分析方法，重点解说了要害路径分析的原理和技术实现计划，实际表明此计划效果显著，在耗时优化方面施展了重要作用，心愿这些内容可能对有趣味的读者产生启发，并有所帮忙。
全文 4528 字，预计浏览工夫 12 分钟。

近年来，互联网服务的响应提早 (latency) 对用户体验的影响愈发重要，然而以后对于服务接口的提早剖析却没有很好的伎俩。特地是互联网业务迭代速度快，性能更新周期短，必须在最短的工夫内定位到提早瓶颈。然而，服务端个别都由分布式系统形成，外部存在着简单的调度和并发调用关系，传统的提早分析方法效率低下，难以满足当下互联网服务的提早剖析需要。

要害路径分析 (Critical Path Tracing) 作为近年来崛起的提早分析方法，受到 Google，Meta，Uber 等公司的青眼，并在在线服务中取得了广泛应用。百度 App 举荐服务作为亿级用户量的大型分布式服务，也胜利落地利用要害门路提早剖析平台，在优化产品提早、保障用户体验方面施展了重要的作用。本文介绍面向在线服务罕用的提早分析方法，并具体介绍要害路径分析的技术实现和平台化计划，最初结合实际案例，阐明如何在百度 App 举荐服务中播种理论业务收益。

以后业界罕用的服务提早剖析有 RPC 监控(RPC telemetry)，CPU 分析(CPU Profiling)，分布式追踪(Distributed Tracing)，上面以一个具体的系统结构进行举例说明：

△图 1 系统结构示例

A、B、C、D、E 别离为五个零碎服务，A1 到 A4、B1 到 B5 别离为 A、B 零碎内的子组件(能够了解为 A、B 零碎外部进一步的细化组成部分)，箭头标识服务或组件之间的调用关系。

RPC 是目前微服务零碎之间罕用的调用形式，业界次要开源的 RPC 框架有 BRPC、GRPC、Thrift 等。这些 RPC 框架通常都集成了统计打印性能，打印的信息中含有特定的名称和对应的耗时信息，内部的监控零碎（例如：Prometheus）会进行采集，并通过仪表盘进行展现。

△图 2 RPC 耗时监控 UI 实例

此剖析形式比较简单间接，如果服务之间的调用关系比较简单，则此形式是无效的，如果零碎简单，则基于 RPC 剖析后果进行的优化往往不会有预期的成果。如图 1，A 调用 B，A2 和 A3 是并行调用，A3 外部进行简单的 CPU 计算工作，如果 A2 的耗时高于 A3，则剖析 A ->B 的 RPC 延时是有意义的，如果 A3 高于 A2, 则缩小 A ->B 的服务调用工夫对总体耗时没有任何影响。此外 RPC 剖析无奈检测零碎外部的子组件，对整体提早的剖析具备很大的局限性。

CPU 剖析是将函数调用堆栈的样本收集和聚合，高频呈现的函数认为是次要的提早门路，下图是 CPU 火焰图的展现成果：

△图 3 cpu 火焰图

程度的宽度示意抽样的次数，垂直方向示意调用的关系，火焰图通常是看顶层的哪个函数宽度最大，呈现“平顶”示意该函数存在性能问题。

CPU Profiling 能够解决下面说的 RPC 监控的有余，然而因为仍然无奈通晓并行的 A2 和 A3 谁的耗时高，因而依照 RPC 链路剖析后果还是依照 CPU 剖析的后果进行优化哪个真正有成果将变得不确定，最好的形式就是都进行优化，然而这在大型简单的零碎中老本将会变得很大。可见 CPU Profiling 同样具备肯定的局限性。

分布式追踪目前在各大公司都有了很好的实际(例如 Google 的 Dapper，Uber 的 Jaeger)。

△图 4 分布式追踪成果示例

分布式追踪将要追踪的“节点”通过 span 标识，将 spans 依照特定形式构建成 trace，成果如图 4 所示，从左到右示意工夫线上的不同节点耗时，同一个起始点示意并发执行。这须要收集所有跨服务申请的信息，包含具体的工夫点以及调用的父子关系，从而在内部还原零碎调用的拓扑关系，蕴含每个服务工作的开始和完结工夫，以及服务间是并行运行还是串行运行的。

通常，大多数分布式跟踪默认状况下包含 RPC 拜访，没有服务外部子组件信息，这须要开发人员依据本身零碎的构造进行补全，然而零碎外部本身运行的组件数目有时过于宏大，甚者达到成千盈百个，这就使得老本成为了分布式跟踪进行具体提早剖析的次要阻碍，为了在老本和数据量之间进行衡量，往往会放弃细粒度的追踪组件，这就使得剖析人员须要破费额定的精力去进一步剖析提早真正的“消耗点”。

上面介绍要害路径分析的基本原理和理论的利用。

要害门路在服务外部定义为一条耗时最长的门路，如果将下面的子组件形象成不同的节点，则要害门路是由一组节点组成，这部分节点是 分布式系统中申请处理速度最慢的有序汇合。一个零碎中可能有成千盈百个子组件，然而要害门路可能只有数十个节点，这样数量级式的放大使得老本大大降低。咱们在上图的根底上加上各个子模块的耗时信息。

△图 5 加上耗时信息的示例系统结构

如图 5 所示，在 B 中 B1 并行调用 B3、B4、B5，提早别离为 100,150,120，而后再调用外部的 B2，进行返回，要害门路为 B 1->B4->B2，提早为 10 + 150 + 10 = 170，在 A 中 A1 并行调用 A2，A3。A2 和 A3 都实现后再调用 A4，而后返回，要害门路为A1->A2->A4，提早为 15 + 170 + 10 = 195，因而这个零碎的要害门路为红色线条的门路 A1->A2->B1->B4->B2->A4。

通过这个简略的分布式系统构造表述出要害门路，其形容了分布式系统中申请处理速度最慢步骤的有序列表。可见优化要害门路上的节点必定能达到升高整体耗时的目标。理论零碎中的要害门路远比以上形容的简单的多，上面进一步介绍要害路径分析的技术实现和平台化计划。

要害门路数据的采集到可视化剖析的流程如图所示：

△图 6 数据处理流程

要害门路由服务本身进行产出，个别大型分布式服务都会采纳算子化执行框架，只有集成到框架外部，所有依赖的服务都能够对立产出要害门路。

对于算子化执行框架，思考到如下简略的图构造：

△图 7 一种简略的图构造

P1-P4 是 4 个策略算子，依照图示调度执行。采集 SDK 收集每个算子开始和完结的运行时刻，汇总为要害门路根底数据上报。

一个服务外部的要害门路往往反映不了整个分布式系统延时的常态状况，这就须要将不同服务外部要害进行汇聚。这里的汇聚是依照时间段进行汇聚，这就须要 collector 收到数据后依照上传携带过去的工夫点分到对应工夫的窗口内，收集实现后进行各种延时指标的计算以及要害门路的汇聚，这里有三种汇聚形式:

1、节点要害门路汇聚

这里是将零碎的要害门路拼接到一起，组成一条残缺门路，将各个节点进行汇聚，抉择呈现次数最多的门路作为最“外围”的要害门路。

2、服务要害门路汇聚

节点要害门路是节点粒度的示意状态，然而在一个零碎中服务的门路关系是怎么的呢？这就须要服务要害门路来示意。为了更好的表征服务外部的耗时状况，对节点进行聚合形象。将所有计算型节点对立归为一个叫 inner 的节点，作为起始节点，其余拜访内部服务的节点不变，在从新转换后的门路中抉择呈现次数最多的门路作为服务要害门路，聚合后的门路能够标识服务“本身”和“内部”的延时散布状况。

3、平铺节点类型汇聚

这部分次要是对于外围门路比拟扩散的子节点，例如 B 中 B1 拜访 B3/B4/B5 等多个上游（在理论的零碎中可能有数十个节点呈现在要害门路中，然而没有一个节点有相对的外围占比，各个节点在要害门路中绝对比拟扩散，且常常周期性扭转）, 对这种状况间接统计并筛选出外围占比 >x%（x% 依据特定需要进行确定，x 越小则收集到的要害节点越精密）的节点，须要留神的是这里是平铺取的节点，并不是一条“外围”的要害门路。

数据库存储的是计算好的后果，以工夫、用户类型、流量起源等作为查问关键字，不便进行多维度剖析。这里应用 OLAP Engine 进行存储，不便数据分析和查问。

展现的内容次要有以下几局部：

外围占比：节点呈现在要害门路中的概率
外围贡献度：节点呈现在要害门路中时，本身耗时占整个门路总耗时的比例
综合贡献度：外围占比和外围贡献度两者相乘，作为综合掂量的规范
均值：节点耗时的平均值
分位值：节点耗时的不同分位值。分位值是统计学中的概念，即把所有的数值从小到大排序，取前 N% 地位的值即为该分位的值，罕用的有 50 分位、80 分位、90 分位等

外围占比高贡献度很低或者贡献度高占比很低的节点优化的成果往往不是很显著，因而应用综合贡献度做为外围占比和外围贡献度的综合考量，这个指标高的节点是咱们须要重点关注的，也是优化收益较大的。

从耗时优化的角度登程，这里有两个次要的诉求，一个是查问某个时间段的要害门路，依此来领导进行特定节点或阶段的优化。另一个是须要进行要害门路的比照，找到 diff 的节点，开掘具体的起因来进行优化，整体延时的进化往往是因为特定节点的好转造成的，这里的比照能够是不同工夫、不同地区、甚至是不同流量成分的比照，这样为提早剖析提供了多维度的领导根据。

要害门路的成果如图 8 所示，在页面上能够依照特定维度进行排序，便于进一步的筛选。

△图 8 外围要害门路示例

百度 App 举荐零碎外部建设了要害门路提早剖析平台 Focus，已上线 1 年多，胜利反对了日常的耗时剖析和优化工作，保障了百度 App Feed 流举荐接口的毫秒级响应速度，提供用户顺滑的反馈体验。取得研发，运维和算法团队的统一好评。

以举荐服务的一个理论线上问题举例，某天监控零碎发现零碎进口耗时冲破监控阈值，要害门路提早剖析平台主动通过服务要害门路定位到是某个服务 B 出了问题，而后通过观察服务 B 的节点要害门路发现是节点 X 有问题，然而节点 X 上游申请的是多个上游，这时通过平铺节点类型发现平时耗时比拟低的队列 Y 延时突增，外围占比和贡献度都异样高，告诉上游负责的 owner 进行定位，发现的确是服务自身异样，整个定位过程全自动化，无需人工按个模块排查。

△图 9 零碎提早异样后的主动定位剖析过程

在当下大型分布式系统中，服务接口的低响应提早是保障用户体验的重要要害。各大公司也纷纷投入大量精力来优化延时，然而简单的系统结构使得优化难度较大，这就须要借助翻新的优化办法。本文通过具体的例子介绍了要害路径分析的原理，在百度 App 举荐零碎中理论利用落地的平台化计划，最初分享了理论案例。提早耗时剖析方向还有很多新的倒退方向和翻新空间，也欢送对该方向感兴趣的业界同仁一起探讨。

——END——

举荐浏览：

百度工程师教你玩转设计模式（装璜器模式）

百度工程师带你体验引擎中的 nodejs

揭秘百度智能测试在测试定位畛域实际

百度工程师带你探秘 C ++ 内存治理（ptmalloc 篇）

为什么 OpenCV 计算的视频 FPS 是错的

百度 Android 直播秒开体验优化

关于分布式系统:分布式系统关键路径延迟分析实践

01 背景

02 罕用分布式系统提早分析方法

2.1 RPC 监控

2.2 CPU Profiling

2.3 分布式追踪

03 要害路径分析

3.1 介绍

3.2 理论利用解决方案

3.2.1 外围要害门路的产出和上报

3.2.2 外围要害门路的汇聚和计算

1、节点要害门路汇聚

2、服务要害门路汇聚

3、平铺节点类型汇聚

3.2.3 外围要害门路的存储和展现

04 利用

05 总结

Just My Socks（注册教程内含优惠码）

关于分布式系统:分布式系统关键路径延迟分析实践

01 背景

02 罕用分布式系统提早分析方法

2.1 RPC 监控

2.2 CPU Profiling

2.3 分布式追踪

03 要害路径分析

3.1 介绍

3.2 理论利用解决方案

3.2.1 外围要害门路的产出和上报

3.2.2 外围要害门路的汇聚和计算

1、节点要害门路汇聚

2、服务要害门路汇聚

3、平铺节点类型汇聚

3.2.3 外围要害门路的存储和展现

04 利用

05 总结

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）