关于运维:全链路业务追踪落地实践方案

37次阅读

共计 3413 个字符,预计需要花费 9 分钟才能阅读完成。

2019 年,“Kentik 公司的一项考察表明,现在 40% 的组织认为本人是多云用户,他们的组织领有两个或多个云服务提供商提供的云服务。三分之一的组织领有混合云环境,其中至多有一个云计算服务提供商提供的云服务和外部部署数据中心或第三方的数据中心基础设施。

在此发展趋势下,IT 运维管理工作进入了“运维最好的时代”,同时也是“运维最坏的时代”。企业在越来越器重 IT 运维对业务倒退的价值的同时,发现 IT 架构产生了巨大变化。

  • 业务部署模式极其灵便:私有云、公有云、混合云
  • 业务节点散布极其宽泛:很难到为业务提供撑持的 XaaS 实例的地位
  • 调用承载关系极其简单:微服务间的调用依赖数量相较从前呈指数级暴发

着眼于运维畛域,面临如下困局亟待解决:

  • 生产问题发现不及时:因为零碎间服务调用关系不通明,以及传统“总量监控”的模式,造成交易链路中“问题服务”的影响无奈疾速进行预警与告诉,经营监控存在肯定滞后性。
  • 排查问题工作量大:因为监控伎俩的限度,以及各零碎运行数据规范不对立,生产问题的解决需调用大量“开发”与“运维”资源,且沟通老本较高。
  • 解决问题效率低:因为各零碎间运行数据没有对立的串联标识,以及记录规范不同,导致无奈疾速定位“问题服务”。

可观测性

由此,也引发了 IT 运维畛域新的摸索与实际,呈现了不同以往的“SRE”、“可观测性”、“AIOps”等理念。为了解决新一代 IT 架构下上述难题,首先要解决零碎运行状态数据化表征的问题,业界提出了“可观测性 (Observability)”概念。

2017 年,Peter Bourgon 提出的可察看性三大支柱——指标(Metrics)、调用链(Tracing)和 日志(Logging),这三个维度简直涵盖了应用程序的各种表征行为,开发人员通过收集并查看这三个维度的数据(Telemetry Data)就能够做各种各样的事件,时刻把握应用程序的运行状况。这曾经成为当今可观测畛域的规范,也是体系建设的地基。

  • 指标(Metrics):一种聚合态的数据模式,日常中常常会接触到的 QPS、TP99、TP999 等等都属于 Metrics 的领域,个别是基于统计学原理来进行设计实现的;
  • 日志(Logging):狭义上的日志由业务申请或者事件触发,记录应用程序的状态信息快照。针对日志数据的对立收集、存储以及解析受诸多因素影响,比方结构化与非结构化的日志解决,往往须要一个高性能的解析器与缓存;
  • 调用链(Tracing):起源于 SOA 技术时代,服务化带来的长调用链,仅仅依附日志是很难去定位问题的,须要一些措施来进行复杂性弥补。因而它的表现形式比 Metrics 更简单。

落实可观测性的动作往小了说就是生产 + 收集 + 解决 + 生产观测数据。收集应用环境的观测数据并不是什么新鲜事。然而,从一个应用程序到另一个应用程序,收集机制和格局很少是统一的。

对于开发人员和 SRE 来说,这种不一致性可能是一场噩梦。在寰球范畴提供可观测性解决方案中,不得不提及以下协定 / 工具,在撑持观测数据生产、收集、解决方面带来极大的便当,而全链路追踪则是运维畛域实际可观测性生产的重要动作:

  • 在云原生的场景下,虚拟化更加彻底、环境动态性更强。充分利用可观测性实现全链路追踪,以达到业务高可用、满足 SLA 等要求。
  • 通过可视化的形式追踪交易全链路,实现疾速发现问题、定位问题、辅助解决问题;以更直观、迷信的形式产生并应用对观测数据进行实时监控剖析。
  • 引入 AI 的技术来进行自动化的异样发现、定位与修复。

问题与挑战

从链路层、数据层、应用层别离来看,要实现全链路追踪仍须要解决泛滥问题。链路层遇到的问题和挑战包含有云原生 / 虚拟化环境内外部流量数据的汇聚、复制、分流、过滤技术手段不齐备,云原生 / 虚拟化环境与物理交换机环境流量数据建链艰难;不足基于残缺链路的性能监控剖析。

数据层遇到的问题和挑战包含:不标准的日志(Logging)、调用链(Tracing)数据难以精确刻画出业务端到端拓扑,造成观测指标数据的不残缺;不够精准的指标体系(Metrics)引起的信息烦扰或剖析生效。

应用层遇到的问题和挑战包含:传统的利用性能监控技术理念对于云原生 / 虚拟化环境下 IT 组件的观测能力要求不匹配。例如:多组件间异步交互的关联与排序、基于工夫切片的调用链回溯等。

同时,从业务场景总体来看各层级内、层级间不足残缺的端到端贯通,无奈残缺描述的被观测零碎。

云智慧通过 10 多年继续实际、积攒、摸索、翻新,构建并落地了残缺的面向新一代 IT 架构的全链路追踪解决方案,上面咱们将体系化的介绍一下该计划的技术理念及落地动作。

全链路追踪整体解决方案

实用场景

没有任何监控工具

目前处于手工运维。随着业务倒退,容器化利用,人工运维无奈满足绝对简单业务的监控和业务链路追踪需要,疾速响应业务,运维倒退跟不上业务倒退。

有大量监控工具

有大量的监控工具。如根底监控,网管监控工具,开源工具 Zabbix 等。但工具扩散无奈基于业务全链路追踪体系。

有比拟全的工具

有比拟全的监控工具,有一些能够造成链路的工具,如商业化利用性能监控,开源的 ELK 日志监控,同时也在摸索 Pinpoint、SkyWalking、OpenTracing 规范等。但利用较传统,革新日志须要布局,无配置管理辅助造成全链路追踪。

运维数据对立治理和智能化

布局对立运维治理,指标是利用 AIOps 的能力晋升调用链追踪,借助智能运维能力达到初步智能运维程度。工具层建设比拟全,开源的、商业的,CMDB 等。但对于调用链无奈全面的展现和灵便应用全链路追踪数据。工具扩散无奈基于业务全链路追踪体系。链路不残缺,链路和监控工具,监控数据无奈造成合力,配置管理无奈利用到全链路追踪场景。

解决方案

全链路业务追踪整体解决方案整体依靠监控工具和智能运维平台,次要蕴含以下四个解决方案,日志链路追踪解决方案、利用链路解决方案、网络链路解决方案、基于交融数据的全链路追踪解决方案。

前三种解决方案依靠监控工具,第四种基于交融数据的解决方案,交融各种运维数据,基于智能运维中台和算法能力。实现最终全链路最终目标。

全链路业务追踪根本指标,显著缩短均匀故障复原工夫。在运维过程的各个关键环节进行保障

  • 故障进攻阶段:全链路追踪指标布局和观测,指标同时转换为告警阈值,如果故障产生提前预测和告警,能够第一工夫解决运维问题;
  • 故障发现阶段:告警疾速告诉到运维团队,
  • 剖析与解决阶段:基于全链路业务追踪疾速故障剖析和解决,通过链路追踪和可视化疾速剖析定位运维问题,做到可度量可观测。
  • 复盘和总结阶段:历史数据分析,全链路优化与补充,根因定位剖析,业务系统优化倡议。

通过以上过程,次要是故障发现阶段尤其是剖析与解决阶段的效率进步,显著缩短均匀故障复原工夫 MTTR 整个过程中智能算法的作用

总结

回顾全链路追踪畛域面临的问题和挑战,通过落地实际本计划内容,失去无效解决。

观测数据应用难的问题

  • 通过 AI 算法能力与专家教训联合,实现简单 IT 环境下故障疾速检测、根因定位、性能优化;
  • 辨认业务场景要害调用链的全局性能,辅助业务优化;
  • 提供可追溯的性能数据,量化运维部门业务价值

观测数据建链难的问题

  • 基于运维数据中台的解决能力,将丰盛的观测数据进行实时汇聚 / 解决 / 存储 / 剖析,构建交融观测数据体系;
  • 通过多维拓扑进行全程展现和上下游影响剖析。

观测数据接入难的问题

  • 多源头:前后端、跨云部署、三方工具等;
  • 多数据类型:日志、指标、调用链、网络流量、三方拓扑等;
  • 多语言:Java、Go 等;
  • 多协定:OpenTracing、OpenTelemetry 等;

开源福利

云智慧已开源数据可视化编排平台 FlyFish。通过配置数据模型为用户提供上百种可视化图形组件,零编码即可实现合乎本人业务需要的炫酷可视化大屏。同时,飞鱼也提供了灵便的拓展能力,反对组件开发、自定义函数与全局事件等配置,面向简单需要场景可能保障高效开发与交付。

点击下方地址链接,欢送大家给 FlyFish 点赞送 Star。参加组件开发,更有万元现金等你来拿。

GitHub 地址:https://github.com/CloudWise-…
Gitee 地址:https://gitee.com/CloudWise/f…
万元现金流动:http://bbs.aiops.cloudwise.co…

微信扫描辨认下方二维码,备注【飞鱼】退出 AIOps 社区飞鱼开发者交换群,与 FlyFish 我的项目 PMC 面对面交换~

正文完
 0