关于elasticsearch:全观测系列Elasticsearch应用性能监控最佳实践

114次阅读

共计 3959 个字符,预计需要花费 10 分钟才能阅读完成。

简介:本文介绍了利用性能监控的利用价值以及解决方案等。

1、什么是全观测?

要理解全观测,咱们先看看传统运维存在哪些问题。

  • 数据孤岛,扩散在不同部门,剖析排查故障艰难;
  • 多个厂商的多种工具,无奈自动化对立剖析;
  • 故障是平面的,日志、指标等都只能看到一方面的可察看性;
  • 只进行收集,没有真正深入分析,不能施展大数据的价值;

而全观测是对传统运维的改良。它将日志、指标、APM 数据,汇总在一个平台,让运维、开发、业务人员对所有的数据从对立视角进行察看剖析,能够实现——

  • 建设对立的可视化视图、对齐工夫、过滤条件;
  • 建设对立的基于规定的监控和告警;
  • 建设对立的机器学习的智能监控和告警。

在整个全观测中包含日志、指标,APM 这三要素中,大家绝对比拟生疏的可能是 APM。

2、什么是利用性能监测 APM

APM 定义:企业应用 APM 对本身简单的软件及应用程序的运行状态进行监测、诊断和剖析,从而缩短故障定位工夫和晋升故障的定位准确度,进而晋升利用运行效益和优化用户的应用体验。

APM 波及的技术类型包含人工智能、大数据、云计算,它的外围是用户体验,晋升利用可靠性性,晋升利用品质,升高 IT 总领有老本。

随着当今利用的多元化和复杂化,咱们须要通过 APM 这样一个利用性能监测,实现端到端业务性能的剖析,同时帮忙理解咱们的服务,比如说工夫都花在了什么下面,服务解体的起因是什么,整个服务的瓶颈在哪里,从而使咱们更好的去跟踪、优化终端用户的体验。

3、利用性能监测 APM 场景

3.1 APM 利用场景及痛点

• 利用异样诊断

— 散布式微服务架构的利用进行故障排查时存在问题定位难的景象;

— 业务逻辑复杂化使企业对利用架构梳理和治理难度减少。

• 利用体验治理

— 用户体验间接影响应用服务发展前景,但获取用户拜访零碎时的真是和具体情况难。须要及时且疾速定位新故障或复现用户反馈的问题场景,高效解决故障,避免客户散失

• 利用异样诊断

— 多视角剖析关联指标和告警数据,并生成故障根因剖析报告

— 联合历史数据与运维教训,实时剖析异样事务的产生起因

3.2 APM 能力及业务价值

• 被动监测与被动监测,重视终端用户体验优化

• 实时、可视化利用架构,帮助用户全面理解简单的基础设施

• 利用数据积攒及实时更新,为解决不同平台问题提供数据撑持

• 门路跟踪与及时预警,升高故障损失

• 深刻监控利用组件,偏重监控工具之间运作的功效,助力用户疾速定位和解决问题

4、阿里云 Elasticsearch 利用性能监测性能公布

基于开源 Elastic APM 构建,提供云上一键托管的阿里云 Elasticsearch 利用性能监控 Server 节点服务拉起,反对应用阿里云 Elasticsearch 作为其数据存储,并容许实时监控数千个应用程序的性能。

用户可通过 Agent 收集蕴含传入申请、数据库查问、缓存调用、内部 HTTP 申请、谬误及异样等多种具体的性能信息,并通过 Elasticsearch 进行存储及可视化剖析,为企业及开发者提供高效的应用程序性能优化与监控能力。

4.1 用户依据默认提供的代理 Agent 及数据采集模板进行数据收集
用户可应用与服务雷同的语言编写的开源库,代理程序会挂钩应用程序并收集性能指标和谬误,所有数据都会收集并发送到 Server 端。

4.2 云上托管阿里云 ES 利用性能监控 Server 实例创立与治理
一键拉起 Server 节点并进行灵便的扩缩及配置,Server 通过 JSON HTTP API 从代理接收数据,单个节点通常能够解决来自数百个代理的数据。

4.3 配置关联阿里云 ES 实例,联合 Kibana 进行性能指标数据存储及剖析
联合阿里云 ES 自研日志 Indexing Service 以及海量存储 Openstore,能够达到高并发的写入能力,以及低成本、近实时地存储搜寻海量数据。云上收费托管拉起的 Kibana 节点提供丰盛的数据分析及可视化能力。

5、全观测场景技术难点和解决方案

如何通过云上 Elastic Stack 能力去解决全观测 - 日志场景下的痛点。

5.1 全观测场景面临哪些痛点

  • 日志 / 指标获取难

机器、业务零碎、网络链路、操作系统,诸多指标及日志获取伎俩不一,落地过程简单;

  • 日志 / 指标规格化要求高

上下游链路配合连接过程中,如何将无效信息从海量日志中获取;

  • 高并发写入、零碎稳定性差

业务 / 流量抖动,日志写入峰值往往会很高,旁路零碎稳定性受到很大的挑战;

  • 海量数据存储老本高

日志场景波及海量数据,TB 级别起步,甚至 PB 级;

  • 日志剖析和指标监控对立难

借助时序零碎能够很好的实现监控,但异样剖析艰难相同,如何在对立平台实现;

  • 零碎可扩展性要求高

业务调整带来的技术演进始终在产生,技术组件更新快,运维框架须要有弱小的兼容性;

5.2 云上 ELK 全观测解决方案能力

  • Beats/APM 获取日志 / 指标

轻量化的提供各类 metic、logs、APM 数据采集能力;

  • 数据荡涤 SQL 化更繁难

反对各类网络格局的日志 / 指标采模板,实时计算 Flink 提供残缺流式 SQL 能力;

  • 云上 ES 写入托管及超强稳定性

提供 Indexing service 自研 ES 写入托管服务,及跨机房部署、同城容灾、场景内核优化;

  • 低成本数据存储

阿里云 ES 提供冷热拆散数据存储形式,及自研存储引擎 Openstore 优化存储压缩算法;

  • 日志剖析、指标监控、APM 能力齐全

阿里云 ElastiStack 全托管,提供日志剖析、监控、Tracing 一站式能力;

针对时序场景,针对性优化引擎,保障时序日志监控和剖析的性能;

  • 开源生态具备弱小的可扩展性

基于分布式架构,以及灵便凋谢的 RestAPI 和 Plugin 框架,反对各种扩大能力。

6、ES 全观测解决方案实现日志监控 / 运维 / 剖析

  • 计划选型:100% 兼容开源,与各类开源生态组件无缝连接;反对多云 / 跨云的日志监控、运维剖析场景
  • 计划劣势:云上 Elasticsearch 端到端的采集传输及剖析能力,提供面向海量数据的高性能读写、高弹性、低成本解决方案

7、时序日志场景痛点剖析

写多读少的日志场景下会遇到什么问题?

(1)高峰期写入压力大弹性扩大难以无效施行

(2)海量计算 + 存储资源老本高下峰期资源闲置

(3)为保证系统稳定性集群运维治理简单

8、阿里云 Elasticsearch 日志增强版

基于云原生自研引擎技术的全观测数据写入托管及海量存储能力

  • 日志写入 Serverless

自研写入减速 Indexing Service,反对 ES 日志场景海量数据写入,写入按理论流量计费,提供极致的弹性和弱小的业务零碎洪峰应答能力,客户毋庸预留资源并保护大规模集群;

  • 海量存储 Openstore

可依据理论数据的存储量按量计费,毋庸提前预留集群存储容量,数据兼容 ES 原生查问。单据节点可存储百 TB 数据并通过灵便易用的数据生命周期策略进行数据管理

  • 云端 10 倍写入弹性扩缩

云端海量算例冲破写入瓶颈,毋庸提前预留资源,无低峰闲置节约

  • 老本升高 50% 以上

按需应用,按理论写入流量付费,云端按量写入,优化资源老本

  • 存储超低老本

相较于高效云盘存储老本升高 70%,毋庸提前预留资源,无低峰闲置节约

  • 海量数据可查问

相较于高效云盘存储老本升高 70%,存储 Serverless 按理论用量用多少付多少

9、应用服务数据链路追踪与剖析

某汽车品牌案例(SLA/KPI 指标跟踪、销售撑持零碎链路追踪与日志剖析),基于阿里云 Elasticsearch 的“汽车行业应用服务数据链路追踪和日志剖析”介绍。

(1)场景需要

在整体汽车行业推动业务全流程数字化转型的背景下,外部撑持零碎,以及依赖的 IT 组件(如:挪动网关),疾速上云后,外部零碎产生大量的 Metric、TraceLog、Log 等数据,须要在云上疾速落地。

某汽车品牌企业 IT 部门下,有多个内容管理系统(CMS)、分销商经营办公零碎(DMO)、经营品质监控零碎(QIS)、营销经营剖析零碎(MMP)、BI 零碎等外部撑持零碎。

•IT 业务零碎简单,既要满足继续的业务需要,又要整体上云,须要有疾速平迁、对接原有云上 / 云下的 IT 零碎的产品,并能保障技术架构的灵便、开放性,反对后续的自在拓展;

• 预期将来的日志数据规模超 PB 级(180 天),底层技术架构须要兼备低成本存储、疾速获取、按需检索和剖析的能力;

(2)计划价值点

  • 极低迁徙 / 革新老本:外资 / 合资背景的车企 IT 架构借鉴外资方海内的 IT 架构,ES 是十分遍及的技术架构计划,阿里云 ES 齐全兼容开源,客户运维零碎上云的迁徙 / 革新老本极低,最快一周内实现零碎上线;
  • 低存储老本:存储的数据量很大(客户单个日志集群 240TB 存储量)。提供分级存储的存储介质。例:OSS 中存储的 1 PB 日志 12.6W/ 月,每月多付 3W 元 / 月,日志即可取得秒级含糊检索、聚合剖析查问等能力(比自建 ELK 间接应用高效云盘便宜了 20.9W/ 月);
  • 真正的弹性伸缩:提供 Serverless(服务化)存算拆散架构,按流量收取写入费用,没有流量不收钱,真正意义上的“刹时弹性伸缩”;


整体计划架构

10、ES 利用性能 APM Server 创立

3min 疾速拉起 APM Server 进行数据传输,最低仅需 180 元 / 月

在 APM server 控制台列表,能够查看有多少个 APM server 在运行。

咱们能够看到 APM server 的拜访地址,将这个拜访地址配到 APM agent 外面。APM agent 采集过程中,能够反对多种客户端语言,能够疾速的实现数据采集的配置。

当数据采集之后,咱们就能够来到 Kibana 的界面,通过 Dev tools 进行一些索引的创立。

Kibana 界面能够查看所有的 APM 服务数据,如均匀响应时长,P95 值,异样产生的工夫等等。

进入查看某个服务的具体数据:

点击查看某个具体的申请数据的瀑布视图:

查看瀑布视图的详情:

比方发现有很多 select 正在进行,能够点击查看具体详情:

查看全链路数据:

原文链接
本文为阿里云原创内容,未经容许不得转载。

正文完
 0