简介:在云原生时代,充分利用边缘节点的计算和存储能力,联合冷热数据拆散实现高性价比的数据价值摸索曾经逐步成为 APM 畛域的支流。
作者:夏明(涯海)
调用链记录了残缺的申请状态及流转信息,是一座微小的数据宝库。然而,其宏大的数据量带来的老本及性能问题是每个理论利用 Tracing 同学绕不开的难题。如何以最低的老本,按需记录最有价值的链路及其关联数据,是本文探讨的次要话题。外围关键词是:边缘计算 + 冷热数据拆散。如果你正面临全量存储调用链老本过高,而采样后查不到数据或图表不准等问题,请急躁读完本文,置信会给你带来一些启发。
边缘计算,记录更有价值的数据
边缘计算,顾名思义就是在边缘节点进行数据计算,赶时髦的话也能够称之为“计算左移”。在网络带宽受限,传输开销与全局数据热点难以解决的背景下,边缘计算是寻求老本与价值均衡最优解的一种无效办法。
Tracing 畛域最罕用的边缘计算就是在用户过程内进行数据过滤和剖析。而在私有云环境,用户集群或专有网络外部的数据加工也属于边缘计算,这样能够节俭大量的公网传输开销,并扩散全局数据计算的压力。
此外,从数据层面看,边缘计算一方面能够筛选出更有价值的数据,另一方面能够通过加工提炼数据的深层价值,以最小的老本记录最有价值的数据。
筛选更有价值的数据
链路数据的价值散布是不平均的。据不齐全统计,调用链的理论查问率小于百万分之一。全量存储数据不仅会造成微小的老本节约,也会显著影响整条数据链路的性能及稳定性。如下列举两种常见的筛选策略。
- 基于链路数据特色进行调用链采样上报(Tag-based Sampling)。比方错 / 慢调用全采,特定服务每秒前 N 次采样,特定业务场景自定义采样等。下图展现了阿里云 ARMS 自定义采样配置页面,用户能够依据本身须要自在定制存储策略,理论存储老本通常小于原始数据的 5%。
- 异样场景下主动保留关联数据现场。咱们在诊断问题根因时,除了调用链之外,还须要联合日志、异样堆栈、本地办法耗时、内存快照等关联信息进行综合判断。如果每一次申请的关联信息全都记录下来,大概率会造成零碎的解体。因而,是否通过边缘计算主动保留异样场景下的快照现场是掂量 Tracing 产品优劣的重要规范之一。如下图所示,阿里云 ARMS 产品提供了慢调用线程分析,内存异样 HeapDump 等能力。
无论哪种筛选策略,其核心思想都是 通过边缘节点的数据计算,抛弃无用或低价值数据,保留异样现场或满足特定条件的高价值数据。这种基于数据价值的选择性上报策略性价比远高于全量数据上报,将来可能会成为 Tracing 的支流趋势。
提炼数据价值
除了数据筛选,在边缘节点进行数据加工,比方预聚合和压缩,同样能够在满足用户需要的前提下,无效节俭传输和存储老本。
- 预聚合统计:在客户端进行预聚合的最大益处,就是在不损失数据精度的同时大幅缩小数据上报量。比方,对调用链进行 1% 采样后,依然能够提供精准的服务概览 / 上下游等监控告警能力。
- 数据压缩:对反复呈现的长文本(如异样堆栈,SQL 语句)进行压缩编码,也能够无效升高网络开销。联合非关键字段模糊化解决成果更佳。
冷热数据拆散,低成本满足个性化的后聚合剖析需要
边缘计算能够满足大部分预聚合剖析场景,然而无奈满足多样化的后聚合剖析需要,比方某个业务须要统计耗时大于 3 秒的接口及起源散布,这种个性化的后聚合剖析规定是无奈穷举的。而当咱们无奈事后定义剖析规定时,貌似就只能采纳老本极高的全量原始数据存储。难道就没有优化的空间么?答案是有的,接下来咱们就介绍一种低成本解决后聚合剖析问题的计划——冷热数据拆散。
冷热数据拆散计划简述
冷热数据拆散的价值根底在于用户的查问行为满足工夫上的局部性原理。简略了解就是,最近的数据最常被查问,冷数据查问概率较小。例如,因为问题诊断的时效性,50% 以上的链路查问剖析产生在 30 分钟内,7 天之后的链路查问通常集中在错慢调用链。实践根底成立,接下来探讨如何实现冷热数据拆散。
首先,热数据存在时效性,如果只需记录最近一段时间内的热数据,对于存储空间的要求就会降落很多。另外,在私有云环境下,不同用户的数据人造具备隔离性。因而,在用户 VPC 外部的热数据计算和存储计划就具备更优的性价比。
其次,冷数据的查问具备指向性,能够通过不同的采样策略筛选出满足诊断需要的冷数据进行长久化存储。例如错慢采样,特定业务场景采样等。因为冷数据存储周期较长,对稳定性要求较高,能够思考在 Region 内对立治理。
综上所述,热数据存储周期短,成本低,但能够满足实时全量后聚合剖析需要;而冷数据通过精准采样后数据总量大幅降落,通常只有原始数据量的 1% ~10%,并能够满足大多数场景的诊断诉求。两相结合,实现了老本与体验的均衡最优解。国内外当先的 APM 产品,如 ARMS、Datadog、Lightstep 均采纳了冷热数据拆散的存储计划。
热数据实时全量分析
链路明细数据蕴含了最残缺最丰盛的的调用信息,APM 畛域最罕用的服务面板、上下游依赖、利用拓扑等视图均是基于链路明细数据统计得出。基于链路明细数据的后聚合剖析能够依据用户个性化需要更无效的定位问题。然而,后聚合剖析的最大挑战是要基于全量数据进行统计,否则会呈现样本歪斜导致最终论断离理论相差甚远。
阿里云 ARMS 作为 2021 年 Gartner APM 魔力象限中国惟一入选云厂商,提供了 30 分钟内热数据全量分析的能力,能够实现各种条件组合下的过滤与聚合,如下图所示:
冷数据长久化采样剖析
全量调用链的长久化存储老本十分高,而前文提到 30 分钟后调用链的理论查问率有余百万分之一,并且大多数的查问集中在错慢调用链,或满足特定业务特色的链路,置信常常排查链路问题的同学会有同感。因而,咱们应该只保留大量满足精准采样规定的调用链,从而极大的节俭冷数据长久化存储老本。
那么精准采样应该如何实现呢?业界罕用的办法次要分为头部采样(Head-based Sampling)和尾部采样(Tail-based Sampling)两种。头部采样个别在客户端 Agent 等边缘节点进行,例如依据接口服务进行限流采样或固定比例采样;而尾部采样通常基于全量热数据进行过滤,如错慢全采等。
最现实的采样策略应该只存储真正须要查问的数据,APM 产品须要提供灵便的采样策略配置能力与最佳实际,用户联合本身业务场景进行自适应的调整。
结语
当越来越多的企业和利用上云,私有星散群规模爆发式增长,“老本”将是企业用云的要害掂量因素。而在云原生时代,充分利用边缘节点的计算和存储能力,联合冷热数据拆散实现高性价比的数据价值摸索曾经逐步成为 APM 畛域的支流。全量数据上报、存储、再剖析这种传统计划将面临越来越大的挑战。将来会如何,让咱们刮目相待。
举荐产品
- 阿里云 ARMS —— 2021 年 Gartner APM 魔力象限中国惟一入选云厂商
- Tracing Analysis —— 兼容 OpenTelemetry 标准,反对 7 种开发语言
退出咱们
【稳固大于所有】打造国内稳定性畛域知识库,让无奈解决的问题少一点点,让世界的确定性多一点点。
- GitHub 地址
- 钉钉群号:23179349
- 如果浏览本文有所播种,欢送分享给身边的敌人,期待更多同学的退出!
版权申明:本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。