关于数据库:告警与恢复告警原理及实现

1次阅读

共计 2140 个字符,预计需要花费 6 分钟才能阅读完成。

一、背景

自“双碳”政策提出以来,KaiwuDB 聚焦“数字能源”畛域,为用户打造数字能源管理平台,旨在晋升综合能源和碳资产治理能力。

数字能源管理平台是以 KaiwuDB 为外围建设的云 - 边 - 端一体化数据服务平台,致力于为 IoT、工业互联网、数字能源、交通车联网、等行业提供从数据产生、采集、汇聚到数据分析、利用、归档的全生命周期的数据服务。

数字能源是物联网技术与能源产业的深度交融,通过能源设施的物联接入,并依靠大数据及人工智能,买通物理世界与数字世界,信息流与能量流互动,实现能源品类的逾越和边界的冲破,放大设施效用,品类协同优化。

二、规定应用组件介绍

A、DAG

介绍 DAG(Directed Acyclic Graph,有向无环图)是一种数据结构,示意的是一张有向图,并且在这个图中,从任意顶点登程都无奈回到该点(无环),如图所示:

B、go-streams 简介 go-streams 是一个流式解决库,它提供一种简略、简洁的形式构建数据处理的管道。

在计算中,管道也称为数据管道,是一组串联连贯的数据处理元件,其中一个元件的输入是下一个元件的输出。管道的元素通常以并行或工夫切片的形式执行,通常在元素之间插入一定量的缓冲存储器。

C、告警规定与复原告警规定介绍

在以后的数字能源平台中,可能会存在各种偶尔状况,所以咱们在指定工夫窗口内,当异样数据个数达到总数据的指定百分比时才被断定为告警状况。

比如说,用户设置 endpoint1 采集点,设置异样数据占比总数量的 60% 时触发一级告警,设置告警窗口为 5 秒。

假如在这 5 秒内 endpoint1 传过来的数据有 100 条,此时当异样数据的数量达到或超过 10060%=60 时,触发一级告警;如果异样数据的数量没有达到 10060%=60 条,则不触发一级告警。

这里的 60% 是人为设置的,由用户来判断在一段时间窗口内,异样数据达到总数据的百分比数,从而来确定是否触发告警等级。

D、告警与复原告警规定设置值介绍

用户定义对指标采集点的监控,设置的值蕴含:

该指标采集点的惟一 id
该指标采集点的告警规定列表,也意味着同一个采集点能够有多个不同级别的告警

规定列表中单个规定蕴含的值有:

告警等级
告警取值范畴
告警数据数量占比的百分数
告警窗口大小
复原告警窗口大小
告警反复发送的工夫

E、告警与复原告警规定返回值参数介绍

若触发告警与复原告警规定,用户和管理人员拿到的告警信息,蕴含的值为:

触发告警与复原告警规定的指标采集点惟一 id
该指标采集点触发或复原到的告警等级
告警类型(告警、复原告警、反复告警)触发该次告警或复原告警的工夫
告警数据

三、规定原理及流程阐明

A、告警与复原告警规定流程阐明

数字能源平台从 Kafka source 中获取批次的所有数据信息(图内题目 1)
数字能源平台将所有数据信息分成单点数据(图内题目 2)
将单点数据同时全副发给分区流程(图内题目 3)
分区流程过滤掉没被监控的数据,并依照工夫窗口的大小将数据进行分区(图内题目 4、14,4 为告警流程,14 为复原告警流程)
依照分区流程的工夫窗口创立工夫窗口(图内题目 5、8、11、15、18、21)
在工夫窗口内将满足告警条件数据进行包装(图内题目 6、9、12、16、19、22)
将包装起来的数据设置为告警流程发过来的数据或复原告警流程发过来的数据(图内题目 7、10、13 为告警流程发过来的数据,17、20、23 为复原告警流程发过来的数据)
将所有包装好的数据发送到同一流程节点(图内题目 24)
判断告警等级流程将传过来的数据判断每个采集点以后的告警等级(图内题目 25)
将每个采集点对应的告警等级信息包装成返回值的格局(图内题目 26)
将包装好的数据发给数据指标(图内题目 27)

B、告警等级设置

阐明每一个被检测的采集点都会设置一个或多个告警等级,比方咱们在 endpoint1 采集点上设置失常状况、1 级告警、2 级告警、3 级告警、4 级告警、5 级告警,数字越大代表越重大。

通常状况下,咱们对每一个采集点都通过保护一个栈来保留这个采集点的告警信息,这个采集点以后的告警等级,即是栈顶保留的告警等级。若以后告警等级大于栈顶元素,则该告警等级进栈,代表以后告警等级进步;若以后告警等级小于等于栈顶元素,则不做任何解决。

C、复原告警等级设置阐明

咱们对以后复原告警等级对栈内元素进行比拟,从栈顶开始,若栈顶元素大于以后复原告警等级,则栈顶元素出栈,持续比拟新栈顶元素与以后复原告警等级,直至栈顶元素小于等于以后告警等级。

若在比拟的过程中,已有栈顶元素被弹出,新栈顶元素小于以后复原告警等级,则将以后复原告警等级进栈,并发送一条设置告警的记录。

若在比拟的过程中,没有栈顶元素被弹出,最开始的栈顶元素小于以后复原告警等级,则不作解决。

D、反复发送告警等级设置阐明

当一个采集点的告警等级栈长时间没有更改,也就是没有进栈操作也没有出栈操作,将对用户从新发送一个以后栈顶元素的告警信息。意为长时间没有对以后告警做出解决,反复揭示。

四、总结

通过告警规定及复原告警规定,能够缩小人力监控,也是自动化运维的一种伎俩。对于数字能源平台来说,一个采集点呈现的问题,首先平台要第一工夫通晓而不是期待用户反馈。通过告警规定与复原告警规定,也大幅缩小了运维人员去查看日志的工夫。

正文完
 0