介绍
Prometheus 是由 SoundCloud 开发的开源监控报警零碎和时序列数据库 (TSDB)。Prometheus 应用 Go 语言开发,是 Google BorgMon 监控零碎的开源版本。
2016 年由 Google 发动 Linux 基金会旗下的原生云基金会(Cloud Native Computing Foundation), 将 Prometheus 纳入其下第二大开源我的项目。Prometheus 目前在开源社区相当沉闷。
Prometheus 和 Heapster(Heapster 是 K8S 的一个子项目,用于获取集群的性能数据。) 相比性能更欠缺、更全面。Prometheus 性能也足够撑持上万台规模的集群。Prometheus 的特点:
- 多维度数据模型。
- 灵便的查询语言。
- 不依赖分布式存储,单个服务器节点是自主的。
- 通过基于 HTTP 的 pull 形式采集时序数据。
- 能够通过两头网关进行时序列数据推送。
- 通过服务发现或者动态配置来发现指标服务对象。
- 反对多种多样的图表和界面展现,比方 Grafana 等。
架构图
Prometheus 服务大抵过程:
- Prometheus 定时去指标上抓取 metrics(指标)数据,每个抓取指标须要裸露一个 http 服务的接口给它定时抓取。Prometheus 反对通过配置文件、文本文件、Zookeeper、Consul、DNS SRV Lookup 等形式指定抓取指标。Prometheus 采纳 PULL 的形式进行监控,即服务器能够间接通过指标 PULL 数据或者间接地通过两头网关来 Push 数据。
- Prometheus 在本地存储抓取的所有数据,并通过肯定规定进行清理和整顿数据,并把失去的后果存储到新的工夫序列中。
- Prometheus 通过 PromQL 和其余 API 可视化地展现收集的数据。Prometheus 反对很多形式的图表可视化,例如 Grafana、自带的 Promdash 以及本身提供的模版引擎等等。Prometheus 还提供 HTTP API 的查问形式,自定义所须要的输入。
- PushGateway 反对 Client 被动推送 metrics 到 PushGateway,而 Prometheus 只是定时去 Gateway 上抓取数据。
- Alertmanager 是独立于 Prometheus 的一个组件,能够反对 Prometheus 的查问语句,提供非常灵便的报警形式。
- Prometheus 反对通过 SNMP 协定获取 mertics 数据. 通过配置 job, 利用 snmp_export 读取设施监控信息.
指标 (Metric) 类型
- Counter 计数器, 从数据 0 开始累计计算. 现实状态会永远增长. 累计计算申请次数等
- Gauges 刹时状态的值. 能够任意变动的数值,实用 CPU 使用率 温度等
- Histogram 对一段时间范畴内数据进行采样,并对所有数值求和与统计数量、柱状图. 某个工夫对某个度量值,分组,一段时间 http 相应大小,申请耗时的工夫。
- Summary 同样产生多个指标,别离带有后缀_bucket(仅 histogram)、_sum、_count
Histogram 和 Summary 都能够获取分位数。
通过 Histogram 取得分位数,要将直方图指标数据收集 prometheus 中,而后用 prometheus 的查问函数 histogram_quantile()计算出来。Summary 则是在应用程序中间接计算出了分位数。
Histograms and summaries 中论述了两者的区别,特地是 Summary 的的分位数不能被聚合。
留神,这个不能聚合不是说性能上不反对,而是说对分位数做聚合操作通常是没有意义的。
LatencyTipOfTheDay: You can’t average percentiles. Period 中对“分位数”不能被相加均匀的做了很具体的阐明:分位数自身是用来切分数据的,它们的平均数没有同样的分位成果。
次要咱们监控用到最下面两种, 上面两种类型目前我没有接触, 下面这段文字与介绍援用自 lijiaocn
装置 Prometheus
本次搭建利用 docker 形式. 整体搭建实现须要两个容器. 暂不配置告警相干, 只做监控数据
前提
- 搭建地位: /home/aLong/prometheus/
- 环境:docker19.03.1 须要指定版本请查阅官网文档.
- 零碎:centos7
筹备工作
Prometheus 的配置文件: prometheus.yml
咱们建设在搭建地位的根下: touch prometheus.yml
在配置文件中退出测试演示配置
global:
scrape_interval: 15s
scrape_timeout: 10s
evaluation_interval: 15s
scrape_configs:
- job_name: prometheus
honor_timestamps: true
scrape_interval: 5s
scrape_timeout: 3s
metrics_path: /metrics
scheme: http
static_configs:
- targets:
- localhost:9090
留神配置文件的格局为 yaml, 语法问题请参考这里.
装置与运行
-
通过 docker 启动 prometheus.
docker run -d -p 9090:9090 \ -v /home/along/prometheus.yml:/etc/prometheus/prometheus.yml \ --name prometheus \ prom/prometheus \ --config.file=/etc/prometheus/prometheus.yml \ --web.enable-lifecycle
–web.enable-lifecycle 启用近程热加载配置文件curl -X POST http://IP:9090/-/reload
留神这里 docker 热加载存在一个问题, 下面挂在文件为 /home/along/prometheus.yml 如果间接编辑此文件会扭转文件的 inode, 热加载不会胜利.
解决办法: 咱们不在挂在配置文件上做批改, 复制一份, 通过冲顶下形式到 prometheus.yml 下面
例如:
cp /home/along/prometheus.yml /home/along/prom-edit.yml
vi /home/along/prom-edit.ym
cat /home/along/prom-edit.ym > /home/along/prometheus.yml
- 此时
curl -X POST http://IP:9090/-/reload
会胜利加载.
验证服务
拜访 http://IP:9090 会进入简略 webUI 界面中. 这是 prometheus 的 web 界面.
外面看到一些信息和监控数据. 能够展现图表.
点击 Status->Target 能够看到监控的设施信息.
拜访 http://IP:9090/metrics 能够看到监控数据.
到这里,Prometheus 曾经装置胜利, 并监测到本机数据.
Grafana 装置
Grafana 是用于可视化大型测量数据的开源程序,它提供了弱小和优雅的形式去创立、共享、浏览数据。
Dashboard 中显示了你不同 metric 数据源中的数据。
Grafana 最罕用于因特网基础设施和利用剖析,但在其余畛域也有用到,比方:工业传感器、家庭自动化、过程管制等等。
Grafana 反对热插拔控制面板和可扩大的数据源,目前曾经反对 Graphite、InfluxDB、OpenTSDB、Elasticsearch、Prometheus 等
官网:docker run -d -p 3000:3000 --name grafana grafana/grafana
汉化:docker run -d -p 3000:3000 --name grafana chenwl2016/grafana-chs:0.1.5
执行后, 通过 http:IP:3000 拜访 grafana.
缺省账号密码 admin
进入后会有首页的一个疏导.
增加数据源, 抉择 prometheus.
之后能够看到默认的模板上会有数据.
通过官网查问模板插件. 导入到零碎中.
自定义模板抉择须要的数据来展现, 这里我还没玩 6, 暂不多说了.
参考
https://grafana.com/docs/
https://prometheus.io/docs/introduction/overview/
https://www.hi-linux.com/posts/25047.html#%E5%AE%89%E8%A3%85prometheus
https://www.lijiaocn.com/%E9%A1%B9%E7%9B%AE/2018/08/03/prometheus-usage.html#metric%E7%B1%BB%E5%9E%8B