前言

在上一篇文章察看零碎解决了什么它又须要什么我讲述了察看零碎的必要性以及察看零碎须要什么数据.然而以什么样的眼光对待传递给察看零碎的数据是含糊的,而事实上对待数据的眼光或者格局会作为顶层设计间接影响整个察看零碎的最初的性能体现和技术水平的高下.

很多公司喜爱把一些对分布式的察看零碎叫做日志解决零碎,告警零碎,监控零碎等,诚实讲都是全面的或者没有真正的了解察看零碎和监控零碎字面用词区别下的实质理念区别.一个优良的察看零碎不单是日志解决,监控,告警这些单维的性能组件.它是基于日志数据,指标数据等根底数据并联合链路追踪技术做数据综合解决后造成的齐备的无缝的察看平台.

Logging,Metrics和Tracing的概念

OpenTelemetry根本定义了一个好的察看零碎最初要做到的状态:终态就是实现Metrics、Tracing、Logging的交融,作为CNCF可察看性的终极解决方案.

OpenTelemetry is a collection of tools, APIs, and SDKs. You use it to instrument, generate, collect, and export telemetry data (metrics, logs, and traces) for analysis in order to understand your software’s performance and behavior.

Tracing: 提供了一个申请从接管到处理完毕整个生命周期的跟踪门路，通常申请都是在分布式的零碎中解决，所以也叫做分布式链路追踪。
Metrics: 提供量化的零碎内/内部各个维度的指标，个别包含Counter、Gauge、Histogram等。
Logging: 提供零碎/过程最精细化的信息，例如某个要害变量、事件、拜访记录等。

这三者在可察看性上缺一不可,基于Metrics的告警发现异常，通过Tracing定位问题(可疑)模块，依据模块具体的Logging定位到谬误本源，最初再基于这次问题考察教训调整Metrics(减少或者调整报警阈值等)以便下次能够更早发现/预防此类问题.

实现Metrics、Tracing、Logging交融的要害是可能拿到这三者之间的关联关系.这篇文章(Metrics, tracing, and logging)具体的形容了三者的定义. 上面我对这篇文章做简短的解释不便大家疾速了解,当然要全面的主观的理解还是要看原文.

首先咱们Metrics、Tracing、Logging能够用上面的韦恩图示意

Metrics中文能够叫度量或者指标,首先它的典型特色就是可聚合(aggregatable).什么是可聚合的呢,简略讲可聚合就是一种根本单位能够在一种维度区间上做数学计算(累加,均匀,).举个例子QPS就是一种Metrics,它的根本单位query是可聚合的,它的维度区间就是工夫区间,区间长度为1s,所以QPS通过聚合得出了每秒零碎被申请的次数.相似的Metrics有单个网络query的均匀拜访提早,MySQL的CPU资源使用率等.

I think that the defining characteristic of metrics is that they are aggregatable: they are the atoms that compose into a single logical gauge, counter, or histogram over a span of time.

Logging的典型特色就是它和孤立的事件(Event)强关联,是因为一个事件的产生所以导致了一条日志的产生.举个例子就是一个网络query是一个事件,它被云端接到后Nginx产生了一个拜访log. 大量的不同的内部事件间基本上是离散的,比方多个用户拜访云端业务时产生的5个事件间没有必然关系,所以在一个服务节点的角度上看这些事件产生的日志间也是离散的

I think that the defining characteristic of logging is that it deals with discrete events.

Tracing的典型特色就是它是有范畴(Scope)的.咱们在链路追踪零碎时,作为链路追踪零碎的元数据必然会承载一些范畴(Scope)信息,比方A服务RPC调用B服务的耗时(duration),通过剖析元数据中的traceId流经了那些服务节点也是一种Scope.

I think that the single defining characteristic of tracing, then, is that it deals with information that is request-scoped.

Metrics、Tracing、Logging是有交加和差集的.每个交加和差集都能找到对应的理论的例子,不再一一赘述.

宏观上察看零碎怎么获取/展示 Logging,Metrics和Tracing

大体上Logging占了察看零碎最次要的数据起源,不过有些Metrics如上文所讲并不能齐全的被Logging体现.比方redis的慢查问或者MySQL的CPU使用率并没有被日志化,它们是一段维度窗口下的刹时信息.同时Tracing的大部分数据起源是被Logging,不过Logging也不能齐全的满足Tracing的须要.比方原始的日志并没有Tracing须要的scope数据,典型的就是没有traceId(traceId也不是必须具体还看追踪零碎的设计)和事件处理的启停工夫.

然而咱们收集数据次要是2方面:

间接获取: 比方上文讲的redis慢查问,没有日志文件不代表不能获取,咱们能够间接连上redis后定期采样获取.此外日志文件自身就是一种间接的展示模式.这是服务被动的留下的蛛丝马迹,属于服务的主观信息
间接获取: 这些信息属于察看零碎察看获取的,比方链路关系,MySQL服务所在的服务器的资源占用指标等. 这些信息自身不是各种类型的服务本人被动提供的,属于服务的主观信息.

在业界对于以上的实际能够看到现有零碎进行的分类.例如,Prometheus开始专一于Metrics零碎,随着工夫的推移可能会越来越多地追踪,从而成为Tracing的指标,但可能不会太深刻到日志记录中,同时基于Dapper的各类分布式链路追踪零碎也在一直呈现.ELK提供log的记录,滚动和聚合,并在其余畛域不停的积攒更多的个性,并集成进来.

值得一提的是相比Metrics和Logging,Tracing零碎绝对来讲代码侵入性和难度要大很多,它须要做一些顶层的设计,比方Google的Dapper抉择了基于标注(annotation-based)的监控计划,它就须要在一些公共组件库上做一些装璜不便一个event流经服务节点后被标注(annotation).

典型的Tracing零碎零碎有Google的Dapper,AWS的X-Ray以及一些国内大厂的开源零碎.

注: 我在本人的文章中有时有traceId的字样,如果不非凡阐明就是带至的相似于Dapper中的annotation的概念.

本文原创链接: 察看零碎中的Logging,Metrics和Tracing

本文参考:

Metrics, tracing, and logging
Dapper，大规模分布式系统的跟踪零碎
google dapper-2010-1.pdf
Metrics、Tracing、Logging的交融
凋谢分布式追踪（OpenTracing）入门与 Jaeger 实现

关于elasticsearch:观察系统中的LoggingMetrics和Tracing

前言

Logging,Metrics和Tracing的概念

宏观上察看零碎怎么获取/展示 Logging,Metrics和Tracing

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于elasticsearch:观察系统中的LoggingMetrics和Tracing

前言

Logging,Metrics和Tracing的概念

宏观上察看零碎怎么获取/展示 Logging,Metrics和Tracing

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复