关于数据库:数据库自治平台-KAP-监控告警架构及实例演示

                            线上沙龙 - 技术流第 25 期回放来啦

本期直播咱们邀请到 KaiwuDB 高级研发工程师 边旭霞老师，为大家介绍《数据库自治平台 KAP 监控告警架构及实例演示》。边旭霞老师具备丰盛的大数据分析和运维教训，曾负责数据经营治理平台的原型设计与开发等重点项目，现次要负责 KAP 的原型设计及研发管理工作。

                                     直播重点回顾

01. KAP 监控告警性能介绍
KAP 是 KaiwuDB 的自治服务工具，在 KAP 中监控次要是帮忙用户全面把握 KaiwuDB 集群的整体运行状况，实时监测集群相干性能，并反对定制化的模板展现各种指标数据。

在告警治理中零碎能够依据配置的规定、订阅、告诉等信息进行告警，帮忙用户及早发现问题、解决问题，从而进步被监控集群继续服务的能力，无效保障数据库服务的稳定性、平安及可靠性。

02. 监控告警的技术架构
KAP 的监控告警实现了多集群监控指标及日志的采集、存储，反对平台监控展现和告警监测和推送。具体流程如下图所示：

03. 监控实现
（1）metric 指标采集
metrics 由 metric name 和 label name 组成。
{=,…}，存储相干指标名称如下表所示：

（2）指标类型：

（3）metric 指标存储
metric 指标占用磁盘大小估算形式：磁盘大小 = metric 保留工夫 每秒获取样本数 样本大小。

能够通过批改配置参数调整指标保留工夫, 在保留工夫和样本大小不变的状况下，如果想缩小本地磁盘的容量需要，能够缩小工夫序列的数量。因而一个 metric 的 label 数量也不应该过多，单个 metric 的 label 数量尽量放弃在 10 个以内。

（4）监控指标可视化
监控哪些内容，不同的集群，不同的业务需要都不雷同，且展现可能会随着时间推移发生变化，这就须要依据业务与集群的要求去定制，使监控更加灵便、扩展性更强。

04. 告警实现

告警规定治理可反对设置指标触发规定、告警范畴、告警等级、告警详情等信息，零碎依据定制的规定检测指标值，满足触发条件后生成告警事件；
告警通道，是告警事件发送的通道，使告警事件、告警日志、谬误日志推送至配置好的服务器；
告警订阅实现用户依据须要推送告警规定。反对用户自定义告警信息发送形式，即通过哪些通道推送哪些分组内告警事件信息。如不配置订阅则只能在告警事件中查看告警信息；
告警事件中用户能够查看历史产生的告警事件，点击工夫可查看对应告警事件的详情。理解产生告警的节点、产生工夫、复原工夫、最初一次告警工夫、告警概述、告警详情，以及告警告诉信息。