关于云原生:得物云原生全链路追踪Trace20架构实践

导读：

分布式链路追踪作为解决分布式应用可观测问题的重要技术，得物全链路追踪(简称Trace2.0)基于OpenTelemetry提供的可观测规范计划实现新一代的一站式全链路观测诊断平台，并通过全量采集Trace帮忙业务进步故障诊断、性能优化、架构治理的效率。

全量采集Trace数据(日增数百TB 、数千亿条Span数据)并以较低的老本保证数据的实时处理与高效查问，对Trace2.0后端整体的可观测性解决方案提出了极高的要求。本文将具体介绍Trace2.0背地的架构设计、尾部采样和冷热存储计划，以及咱们是如何通过自建存储实现进一步的降本增效(存储老本降落66%)。

1. 整体架构设计

全链路追踪Trace2.0从数据接入侧、计算、存储到查问整体模块架构如上图所示。这里说一下各组件的外围能力：

客户端&数据采集：集成并定制OpenTelemetry提供的多语言SDK(Agent)，生成对立格局的可观测数据。
管制立体Control Plane：对立的配置核心向数据采集侧下发各类动静配置发并实时失效；反对向各采集器下发动静配置并实时失效，反对利用按实例数灰度接入，并提供出入参收集动静开关、性能分析动静开关、流量染色动静配置、客户端版本治理等。
数据收集服务OTel Server：数据收集器OTel Server兼容OpenTelemetry Protocol（OTLP)协定，提供gRPC和HTTP两种形式接管采集器发送的可观测数据。
剖析计算&存储OTel Storage：计算侧除了根底的实时检索能力外，还提供了场景化的数据分析计算次要包含：
- 存储Trace数据：数据分为两段，一段是索引字段，包含TraceID、ServiceName、SpanName、StatusCode、Duration和起止工夫等根本信息，用于高级检索；另一段是明细数据(源数据，蕴含所有的Span数据)
- 计算SpanMetrics数据：聚合计算Service、SpanName、Host、StatusCode、Env、Region等维度的执行总次数、总耗时、最大耗时、最小耗时、分位线等数据；
- 业务单号关联Trace：电商场景下局部研发多以订单号、履约单号、汇金单号作为排障的输出，因而和业务研发约定非凡埋点规定后–在Span的Tag里增加一个非凡字段”bizOrderId={理论单号}”–便将这个Tag作为ClickHouse的索引字段；从而实现业务链路到全链路Trace造成一个残缺的排障链路；
- Redis热点数据统计：在客户端侧扩大调用Redis时入参和出参SpanTag埋点，以便统Redis命中率、大Key、高频写、慢调用等指标数据；
- MySQL热点数据统计：依照SQL指纹统计调用次数、慢SQL次数以及关联的接口名。
2. 尾部采样&冷热存储

得物晚期的全链路追踪计划出于对存储老本的思考，在客户端设置了1%的采样率，导致研发排查问题时常常查问不到想看的Trace链路。那么Trace2.0为了解决这个问题，就不能仅仅只是简略地将客户端的采样率调整为100%，而是须要在客户端全量采集Trace数据的同时，正当地管制Trace存储老本。且从实践经验来看，Trace数据的价值散布是不平均的，随着工夫的推移Trace的数据价值是急速升高的。

全量存储Trace数据不仅会造成微小的老本节约，还会显著地影响整条数据处理链路的性能以及稳定性。所以，如果咱们可能只保留那些有价值、大概率会被用户理论查问的Trace，就能获得老本与收益的均衡。那什么是有价值的Trace呢？依据日常排查教训，咱们发现业务研发次要关怀以下四类优先级高场景：

在调用链上呈现了异样ERROR；
在调用链上呈现了大于「200ms」的数据库调用；
整个调用链耗时超过「1s」；
业务场景的调用链，比方通过订单号关联的调用链。

在这个背景下，并联合业界的实践经验，落地Trace2.0的过程中设计了尾部采样&冷热分层存储计划，计划如下:

「3天」内的Trace数据全量保留，定义为热数据。
基于Kafka提早生产+Bloom Filter尾部采样的数据(错、慢、自定义采样规定、以及默认惯例0.1%采样数据)保留「30天」，定义为冷数据。

整体解决流程如下：

OTel Server数据收集&采样规定：将客户端采集器上报的全量Trace数据实时写入Kafka中，并把满足采样规定(上述定义的场景)的Span数据对应的TraceID记录到Bloom Filter中;
OTel Storage长久化热数据：实时生产Kafka中数据，并全量长久化到ClickHouse热集群中；
OTel Storage长久化冷数据：订阅上游OTel Server的Bloom Filter，提早生产Kafka中的数据，将TraceID在Bloom Filter中可能存在的Span数据长久化到ClickHouse冷集群中；延迟时间配置的30分钟，尽量保障一个Trace下的Span残缺保留。
TraceID点查： Trace2.0自定义了TraceID的生成规定；在生成TraceID时，会把以后工夫戳秒数的16进制编码后果(占8个字节)作为TraceID的一部分。查问时只须要解码TraceId中的工夫戳，即可晓得应该查问热集群还是冷集群。

接下来再介绍一下尾部采样中Bloom Filter的设计细节，如下图所示：

整体解决流程如下：

OTel Server会将满足采样规定的Span数据对应的TraceID，依据TraceID中的工夫戳写入到对应工夫戳的Bloom Filter中；
Bloom Filter会按十分钟粒度(可依据理论的数据量并联合BloomFilter的误算率和样本大小计算内存耗费并调整)进行分片，十分钟过后将Bloom Filter进行序列化并写入到ClickHouse存储中；
OTel Storage生产侧拉取Bloom Filter数据(留神：同一个工夫窗口，每一个OTel Server节点都会生成一个BloomFilter)并进行合并Merge(缩小Bloom Filter的内存占用并进步Bloom Filter的查问效率)。

综上所述，Trace2.0仅应用了较少的资源就实现了尾部采样和冷热分层存储。既为公司节约了老本，又保留了简直所有「有价值」Trace，解决了业务研发日常排查时查问不到想看的Trace的问题。

3. 自建存储&降本增效

3.1 基于SLS-Trace的解决方案

Trace2.0建设初期采纳了SLS专为OpenTelemetry定制的Trace计划【1】，提供了Trace查问、调用剖析、拓扑剖析等性能，如下图所示：

SLS-Trace次要解决流程如下：

利用OpenTelemetry Collector aliyunlogserverexporter【2】将Trace数据写入到SLS-Trace Logstore中；
SLS-Trace通过默认提供的Scheduled SQL工作定时聚合Trace数据并生成相应的Span指标与利用、接口粒度的拓扑指标等数据。

随着Trace2.0在公司外部全面铺开，SLS的存储老本压力变得越来越大，为了响应公司“利用技术手段实现降本提效”的号召，咱们决定自建存储。

3.2 基于ClickHouse的解决方案

目前业内比拟风行的全链路追踪开源我的项目(SkyWalking、Pinpoint、Jaeger等)采纳的存储大都是基于ES或者HBase实现的。而近几年新兴的开源全链路追踪开源我的项目(Uptrace【3】、Signoz【4】等)采纳的存储大都是基于ClickHouse实现的，同时将Span数据荡涤进去的指标数据也存储在ClickHouse中。且ClickHouse的物化视图(很好用)也很好地解决了指标数据降采样(DownSampling)的问题。最终通过一番调研，咱们决定基于ClickHouse来自建新的存储解决方案。整体架构图如下：

整体解决流程如下：

Trace索引&明细数据：OTel Storage会将基于Span原始数据构建的索引数据写入到SpanIndex表中，将Span原始明细数据写入到SpanData表中(相干表设计能够参考Uptrace【5】)；
计算&长久化SpanMetrics数据：OTel Storage会依据Span的Service、SpanName、Host、StatusCode等属性统计并生成「30秒」粒度的总调用次数、总耗时、最大耗时、最小耗时、分位线等指标数据，并写入到SpanMetrics表；
- 指标DownSampling性能：利用ClickHouse的物化视图将「秒级」指标聚合成「分钟级」指标，再将「分钟级」指标聚合成「小时级」指标；从而实现多精度的指标以满足不同工夫范畴的查问需要；

-- span_metrics_10m_mv
CREATE MATERIALIZED VIEW IF NOT EXISTS '{database}'.span_metrics_10m_mv_local
            on cluster '{cluster}'
            TO '{database}'.span_metrics_10m_local
AS
SELECT a.serviceName                     as serviceName,
       a.spanName                        as spanName,
       a.kind                            as kind,
       a.statusCode                      as statusCode,
       toStartOfTenMinutes(a.timeBucket) as timeBucket,
       sum(a.count)                      as count,
       sum(a.timeSum)                    as timeSum,
       max(a.timeMax)                    as timeMax,
       min(a.timeMin)                    as timeMin
FROM '{database}'.span_metrics_30s_local as a
GROUP BY a.serviceName, a.spanName, a.kind, a.statusCode,
    toStartOfTenMinutes(a.timeBucket);

元数据(上下游拓扑数据)：OTel Storage依据Span属性中的上下游关系(须要在客户端埋相干属性)，将拓扑依赖关系写入到图数据库Nebula中。

ClickHouse写入细节

ClickHouse应用Distributed引擎实现了Distributed(分布式)表机制，能够在所有分片(本地表)上建设视图，实现分布式查问。并且Distributed表本身不会存储任何数据，它会通过读取或写入其余远端节点的表来进行数据处理。SpanData表创立语句如下所示：

-- span_data
CREATE TABLE IF NOT EXISTS '{database}'.span_data_local ON CLUSTER '{cluster}'
(
    traceID                   FixedString(32),
    spanID                    FixedString(16),
    startTime                 DateTime64(6 ) Codec (Delta, Default),
    body                      String CODEC (ZSTD(3))
) ENGINE = MergeTree
ORDER BY (traceID,startTime,spanID)
PARTITION BY toStartOfTenMinutes(startTime)
TTL toDate(startTime) + INTERVAL '{TTL}' HOUR;

-- span_data_distributed
CREATE TABLE IF NOT EXISTS '{database}'.span_data_all ON CLUSTER '{cluster}'
as '{database}'.span_data_local
    ENGINE = Distributed('{cluster}', '{database}', span_data_local,
                         xxHash64(concat(traceID,spanID,toString(toDateTime(startTime,6)))));

整体写入流程比较简单(留神：防止应用分布式表)，如下所示：

定时获取ClickHouse集群节点；
通过Hash函数抉择对应的ClickHouse节点，而后批量写ClickHouse的本地表。

上线成果

全链路追踪是一个典型的写多读少的场景，因而咱们采纳了ClickHouse ZSTD压缩算法对数据进行了压缩，压缩后的压缩比高达12，成果十分好。目前ClickHouse冷热集群各应用数十台16C64G ESSD机器，单机写入速度25w/s(ClickHouse写入的行数)。相比于初期的阿里云SLS-Trace计划，存储老本降落66%，查问速度也从800+ms降落至490+ms。

下一步布局

目前Trace2.0将Span的原始明细数据也存储在了ClickHouse中，导致ClickHouse的磁盘使用率会有些偏高，后续思考将Span明细数据先写入HDFS/OSS等块存储设备中，ClickHouse来记录每个Span在块存储中的offset，从而进一步升高ClickHouse的存储老本。

对于咱们：
得物监控团队提供一站式的可观测性平台，负责链路追踪、时序数据库、日志零碎，包含自定义大盘、利用大盘、业务监控、智能告警、AIOPS等排障剖析。

欢送对可观测性/监控/告警/AIOPS 等畛域感兴趣的同学退出咱们。

援用
【1】SLS-Trace计划 https://developer.aliyun.com/…
【2】SLS-Trace Contrib https://github.com/open-telem…
【3】Uptrace https://uptrace.dev/
【4】Signoz https://signoz.io/
【5】Uptrace Schema设计https://github.com/uptrace/up…

本篇是《得物云原生全链路追踪Trace2.0》系列开篇，更多内容请关注“得物技术”公众号。
得物云原生全链路追踪Trace2.0架构实际
得物云原生全链路追踪Trace2.0产品篇
得物云原生全链路追踪Trace2.0采集篇
得物云原生全链路追踪Trace2.0数据挖掘篇

*文/南风
@得物技术公众号

关于云原生:得物云原生全链路追踪Trace20架构实践

1. 整体架构设计

2. 尾部采样&冷热存储

3. 自建存储&降本增效

3.1 基于SLS-Trace的解决方案

3.2 基于ClickHouse的解决方案

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于云原生:得物云原生全链路追踪Trace20架构实践

1. 整体架构设计

2. 尾部采样&冷热存储

3. 自建存储&降本增效

3.1 基于SLS-Trace的解决方案

3.2 基于ClickHouse的解决方案

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复