简介
之前笔者有间断 2 篇文章:
- Prometheus 性能调优 - 什么是高基数问题以及如何解决?
- 如何精简 Prometheus 的指标和存储占用
陆续介绍了一些 Prometheus 的性能调优技巧,包含高基数问题的解决以及精简 Prometheus 的指标和存储占用。
明天再介绍一个新的调优思路:程度分片。
程度分片
如果你正在面临的不是因为 label 导致的高基数问题,而是因为监控规模的急剧扩张导致须要被监控的 instance 十分宏大时,能够通过 Prometheus 的hashmod
relabel action 来优化性能。通过这种方法,面对成千上万的 instance 时,一台 Prometheus 只须要监控其中的所有各种各样实例的一部分 instance。
Notes:
Prometheus 也有垂直分片,垂直分片要简略很多,说白了就是配置不同的 job 监控不同的组件即可。
程度分片绝对还有些技术含量。
程度分片配置
具体配置如下,应用一台 Prometheus 抓取 targets 的一部分:
global: external_labels: env: prod scraper: 2scrape_configs: - job_name: my_job ... relabel_configs: - source_labels: [__address__] modulus: 4 target_label: __tmp_hash action: hashmod - source_labels: [__tmp_hash] regex: 2 action: keep
在 modulus
里,配置了 4 为基数。每个 Prometheus 只抓取 1/4,比方下面的配置就只抓取 hashmod
后 __temp_hash
为 2 的 targets。
抓取实现后,能够再通过 remote_write
Thanos Mimir VM 等计划对这 4 台 Prometheus Server 的数据进行聚合。