关于prometheus:夜莺和prometheus告警流程对比分析pull模型远胜push模型

36次阅读

共计 2382 个字符，预计需要花费 6 分钟才能阅读完成。

以 sum(rate(coredns_dns_requests_total[1m])) > 100 为例

alert 和 record 复用大部分逻辑
prometheus 依据配置文件中拿到规定
解析规定查问本地存储或远端存储(带触发条件)，trigger 在存储端
返回一组以后点后果集，返回多少个对应多少条告警
依据内存中的历史数据判断告警持续时间 (for 1 min) 有没有达到
发送告警 event 给 alertmanager
由 alertmanager 做告警的发送、静默、分组路由、关联、回调

monapi 定时从 db 同步策略，judge 依据本人的 ident 拿到属于本人的策略
transfer 依据存活的 judge 拿到所有策略，将策略的 judge 地址填好

transfer 收到 agent push 的数据后，算 hash 拿到策略列表

- 依据策略拿到 judge 地址，依据缓存拿到对应的队列，将数据塞入队列中

judge 收到策略后，依据策略中的 fun 做触发
依据策略中配置实现发送工夫、告警降级、回调等

零碎	阈值判断	是否反对多 series 告警	触发条件	组合条件	nodata
夜莺 v4 push 代表	由 judge 接收点触发判断，查问本地数据	不反对，每个策略针对繁多 series 对应 judge 中内存列表只能用预聚合解决	将 happen、all、any 等和聚合 avg max min 等揉在一起	需做 pull	需做 pull
prometheus pull 代表	由 promql 查问存储	promql 间接反对查问到一个就是一条，多个就是多条	prometheus 触发条件只反对持续时间，其余的全副为聚合 func	promql and 反对	promql absent 反对

总结就是相比于性能损耗 pull 模型带来的灵活性是微小的

push 型的告警模式无疑会带来性能晋升
因为 pull 模型须要每次查问存储，尽管是以后点，但也有些损耗

然而

- 古代的 tsdb 有倒排索引 + 布隆过滤器的加持，告警查问损耗能够降到很低
- pull 模型带来的是非常灵活的触发表达式，从这点看，性能损耗能够疏忽不急
- 而且当初告警触发时都须要带上一些聚合的办法，这点 push 模型做不到

因为 push 本地内存中有响应的数据，然而我感觉这是个伪劣势

最大的能源是否是相中了 promql
存储和采集不反对 promql
触发和聚合混在一起

策略太多双层 map reinit 耗时长
全局变量满天飞

syncStras 全副更新，耗时长，db read 高

- 每个 judge 实例拿到的还是全局数据，而且没有抢锁设计，导致多个 judge 实例同时全表读 db
- 除非 db 那里做分片，分 region

judge push 模型报警很难将 pull 模式融入进来

update 加载配置文件，增量更新告警 / 聚合 group

group.Eval 计算组里的规定

- `// Eval runs a single evaluation cycle in which all rules are evaluated sequentially.`
- `vector, err := rule.Eval(ctx, ts, g.opts.QueryFunc, g.opts.ExternalURL)`
- 返回的是 vector `type Vector []Sample` 代表享有对立时刻的一堆 point
- rule.Eval 分为规定和聚合 `alert/record`
- 调用 EngineQueryFunc，外部调 instance_query
    - `// EngineQueryFunc returns a new query function that executes instant queries against// the given engine.`
- 如果没取到数据，证实没达到触发条件则，只解决历史的 alert，看看持续时间到了没
-  如果 rule 是 alert 则走发送逻辑 `    if ar, ok := rule.(*AlertingRule); ok {ar.sendAlerts(ctx, ts, g.opts.ResendDelay, g.interval, g.opts.NotifyFunc)}`    
- alert 存在 headblock 中，record 写入存储中？

judge 依据本人的 ident 拿到属于本人的策略 stras := cache.StraCache.GetByNode(node)
```
- 更新本地 `cache.NodataStra` 和 `cache.Strategy`
```

monapi 定时从 db 同步策略syncStras

- 分设施相干 or 设施无关
- 依据策略的 id 算哈希，生成 `strasMap [judge_ip_port][]*stra`
- 全量更新 `cache.StraCache`

transfer 依据存活的 judge 拿到所有策略stras := cache.StraCache.GetAll()，将策略的 judge 地址填好

- 依据所有策略的 metrics 算哈希
- 哈希前两位作为 map 的第一层 key
- 外部 map key 为 哈希值，value 为 策略列表
- `straMap := make(map[string]map[string][]*models.Stra)`
- `cache.StraMap.ReInit(straMap)`

transfer 收到 agent push 的数据后，算 hash 拿到策略列表

- 遍历策略列表 匹配 tag
- 依据策略拿到 judge 地址，依据缓存拿到对应的队列，将数据塞入队列中

judge rpc send 中 go judge.ToJudge(cache.HistoryBigMap[pk[0:2]], pk, item, now)

正文完

告警

发表至：告警

2021-04-15

0

关于prometheus:夜莺和prometheus告警流程对比分析pull模型远胜push模型

关于告警:直播预告-数据库自治平台-KAP-监控告警架构及实例演示

关于告警:得物技术直播服务监控告警归因实践

关于告警:面向多告警源如何构建统一告警管理体系

关于spring-mvc:SpringMVC-异常处理体系深入分析

关于prometheus:夜莺和prometheus告警流程对比分析pull模型远胜push模型

夜莺和 prometheus 告警流程比照剖析

prometheus 告警流程剖析

夜莺告警流程剖析

两边本质区别

告警 push 模式的性能晋升问题

告警 push 模式能够工作在查问存储挂掉的 case

在夜莺中引入 pull 的问题

代码剖析

夜莺 v4 代码问题

prometheus 告警代码剖析

夜莺 v4 告警代码剖析

Just My Socks（注册教程内含优惠码）

关于prometheus:夜莺和prometheus告警流程对比分析pull模型远胜push模型

夜莺和 prometheus 告警流程比照剖析

prometheus 告警流程剖析

夜莺告警流程剖析

两边本质区别

告警 push 模式的性能晋升问题

告警 push 模式能够工作在查问存储挂掉的 case

在夜莺中引入 pull 的问题

代码剖析

夜莺 v4 代码问题

prometheus 告警代码剖析

夜莺 v4 告警代码 剖析

Just My Socks（注册教程 内含优惠码）

夜莺 v4 告警代码剖析

Just My Socks（注册教程内含优惠码）