乐趣区

关于prometheus:使用Operator的方式部署Prometheus

一、介绍
Operator 是 CoreOS 公司开发,用于扩大 kubernetes API 或特定应用程序的控制器,它用来创立、配置、治理简单的有状态利用,例如数据库,监控零碎。其中 Prometheus-Operator 就是其中一个重要的我的项目。
其架构图如下:

其中外围局部是 Operator,它会去创立 Prometheus、ServiceMonitor、AlertManager、PrometheusRule 这 4 个 CRD 对象,而后会始终监控并保护这 4 个对象的状态。

Prometheus:作为 Prometheus Server 的形象
ServiceMonitor:就是 exporter 的各种形象
AlertManager:作为 Prometheus AlertManager 的形象
PrometheusRule:实现报警规定的文件

上图中的 Service 和 ServiceMonitor 都是 Kubernetes 的资源,一个 ServiceMonitor 能够通过 labelSelector 的形式去匹配一类 Service,Prometheus 也能够通过 labelSelector 去匹配多个 ServiceMonitor。
二、装置

留神集群版本的坑,本人先到 Github 上下载对应的版本。

咱们应用源码来装置,首先克隆源码到本地:

git clone https://github.com/coreos/kub…

复制代码
咱们进入 kube-prometheus/manifests/setup,就能够间接创立 CRD 对象:

cd kube-prometheus/manifests/setup

kubectl apply -f .

复制代码
而后在下层目录创立资源清单:

cd kube-prometheus/manifests

kubectl apply -f .

复制代码
能够看到创立如下的 CRD 对象:

kubectl get crd | grep coreos

alertmanagers.monitoring.coreos.com 2019-12-02T03:03:37Z
podmonitors.monitoring.coreos.com 2019-12-02T03:03:37Z
prometheuses.monitoring.coreos.com 2019-12-02T03:03:37Z
prometheusrules.monitoring.coreos.com 2019-12-02T03:03:37Z
servicemonitors.monitoring.coreos.com 2019-12-02T03:03:37Z
复制代码
查看创立的 pod:

kubectl get pod -n monitoring

NAME READY STATUS RESTARTS AGE
alertmanager-main-0 2/2 Running 0 2m37s
alertmanager-main-1 2/2 Running 0 2m37s
alertmanager-main-2 2/2 Running 0 2m37s
grafana-77978cbbdc-886cc 1/1 Running 0 2m46s
kube-state-metrics-7f6d7b46b4-vrs8t 3/3 Running 0 2m45s
node-exporter-5552n 2/2 Running 0 2m45s
node-exporter-6snb7 2/2 Running 0 2m45s
prometheus-adapter-68698bc948-6s5f2 1/1 Running 0 2m45s
prometheus-k8s-0 3/3 Running 1 2m27s
prometheus-k8s-1 3/3 Running 1 2m27s
prometheus-operator-6685db5c6-4tdhp 1/1 Running 0 2m52s
复制代码
查看创立的 Service:

kubectl get svc -n monitoring

NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
alertmanager-main ClusterIP 10.68.97.247 <none> 9093/TCP 3m51s
alertmanager-operated ClusterIP None <none> 9093/TCP,9094/TCP,9094/UDP 3m41s
grafana ClusterIP 10.68.234.173 <none> 3000/TCP 3m50s
kube-state-metrics ClusterIP None <none> 8443/TCP,9443/TCP 3m50s
node-exporter ClusterIP None <none> 9100/TCP 3m50s
prometheus-adapter ClusterIP 10.68.109.201 <none> 443/TCP 3m50s
prometheus-k8s ClusterIP 10.68.9.232 <none> 9090/TCP 3m50s
prometheus-operated ClusterIP None <none> 9090/TCP 3m31s
prometheus-operator ClusterIP None <none> 8080/TCP 3m57s
复制代码
咱们看到咱们罕用的 prometheus 和 grafana 都是 clustorIP,咱们要内部拜访能够配置为 NodePort 类型或者用 ingress。比方配置为 ingress:
prometheus-ingress.yaml
apiVersion: extensions/v1beta1
kind: Ingress
metadata:
name: prometheus-ingress
namespace: monitoring
annotations:

kubernetes.io/ingress.class: "traefik"

spec:
rules:

  • host: prometheus.joker.com
    http:
    paths:

    • path:
      backend:
      serviceName: prometheus-k8s
      servicePort: 9090

复制代码
grafana-ingress.yaml
apiVersion: extensions/v1beta1
kind: Ingress
metadata:
name: grafana-ingress
namespace: monitoring
annotations:

kubernetes.io/ingress.class: "traefik"

spec:
rules:

  • host: grafana.joker.com
    http:
    paths:

    • path:
      backend:
      serviceName: grafana
      servicePort: 3000

复制代码
然而咱们这里因为没有域名进行备案,咱们就用 NodePort 类型。批改后如下:

kubectl get svc -n monitoring

NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
grafana NodePort 10.68.234.173 <none> 3000:39807/TCP 3h1m 3h1m
prometheus-k8s NodePort 10.68.9.232 <none> 9090:20547/TCP 3h1m
复制代码
而后就能够失常在浏览器拜访了。
三、配置
3.1、监控集群资源
咱们能够看到大部分的配置都是失常的,只有两三个没有治理到对应的监控指标,比方 kube-controller-manager 和 kube-scheduler 这两个零碎组件,这就和 ServiceMonitor 的定义有关系了,咱们先来查看下 kube-scheduler 组件对应的 ServiceMonitor 资源的定义:(prometheus-serviceMonitorKubeScheduler.yaml)
apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
labels:

k8s-app: kube-scheduler

name: kube-scheduler
namespace: monitoring
spec:
endpoints:

  • interval: 30s # 每 30s 获取一次信息
    port: http-metrics # 对应 service 的端口名
    jobLabel: k8s-app
    namespaceSelector: # 示意去匹配某一命名空间中的 service,如果想从所有的 namespace 中匹配用 any: true
    matchNames:

    • kube-system
      selector: # 匹配的 Service 的 labels,如果应用 mathLabels,则上面的所有标签都匹配时才会匹配该 service,如果应用 matchExpressions,则至多匹配一个标签的 service 都会被抉择
      matchLabels:
      k8s-app: kube-scheduler

复制代码
下面是一个典型的 ServiceMonitor 资源文件的申明形式,下面咱们通过 selector.matchLabels 在 kube-system 这个命名空间上面匹配具备 k8s-app=kube-scheduler 这样的 Service,然而咱们零碎中基本就没有对应的 Service,所以咱们须要手动创立一个 Service:(prometheus-kubeSchedulerService.yaml)
apiVersion: v1
kind: Service
metadata:
namespace: kube-system
name: kube-scheduler
labels:

k8s-app: kube-scheduler

spec:
selector:

component: kube-scheduler

ports:

  • name: http-metrics
    port: 10251
    targetPort: 10251
    protocol: TCP

复制代码

10251 是 kube-scheduler 组件 metrics 数据所在的端口,10252 是 kube-controller-manager 组件的监控数据所在端口。

其中最重要的是下面 labels 和 selector 局部,labels 区域的配置必须和咱们下面的 ServiceMonitor 对象中的 selector 保持一致,selector 上面配置的是 component=kube-scheduler,为什么会是这个 label 标签呢,咱们能够去 describe 下 kube-scheduelr 这个 Pod:
$ kubectl describe pod kube-scheduler-master -n kube-system
Name: kube-scheduler-master
Namespace: kube-system
Node: master/10.151.30.57
Start Time: Sun, 05 Aug 2018 18:13:32 +0800
Labels: component=kube-scheduler

          tier=control-plane

……
复制代码
咱们能够看到这个 Pod 具备 component=kube-scheduler 和 tier=control-plane 这两个标签,而后面这个标签具备更惟一的个性,所以应用后面这个标签较好,这样下面创立的 Service 就能够和咱们的 Pod 进行关联了,间接创立即可:
$ kubectl create -f prometheus-kubeSchedulerService.yaml
$ kubectl get svc -n kube-system -l k8s-app=kube-scheduler
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
kube-scheduler ClusterIP 10.102.119.231 <none> 10251/TCP 18m
复制代码
创立实现后,隔一小会儿后去 prometheus 查看 targets 上面 kube-scheduler 的状态:

promethus kube-scheduler error
咱们能够看到当初曾经发现了 target,然而抓取数据后果出错了,这个谬误是因为咱们集群是应用 kubeadm 搭建的,其中 kube-scheduler 默认是绑定在 127.0.0.1 下面的,而下面咱们这个中央是想通过节点的 IP 去拜访,所以拜访被回绝了,咱们只有把 kube-scheduler 绑定的地址更改成 0.0.0.0 即可满足要求,因为 kube-scheduler 是以动态 Pod 的模式运行在集群中的,所以咱们只须要更改动态 Pod 目录上面对应的 YAML 文件即可:
$ ls /etc/kubernetes/manifests/
etcd.yaml kube-apiserver.yaml kube-controller-manager.yaml kube-scheduler.yaml
复制代码
将 kube-scheduler.yaml 文件中 -command 的 –address 地址更改成 0.0.0.0:
containers:

  • command:
  • kube-scheduler
  • –leader-elect=true
  • –kubeconfig=/etc/kubernetes/scheduler.conf
  • –address=0.0.0.0
    复制代码
    批改实现后咱们将该文件从以后文件夹中移除,隔一会儿再移回该目录,就能够自动更新了,而后再去看 prometheus 中 kube-scheduler 这个 target 是否曾经失常了:

promethues-operator-kube-scheduler
大家能够依照下面的办法尝试去修复下 kube-controller-manager 组件的监控。
3.2、监控集群外资源
很多时候咱们并不是把所有资源都部署在集群内的,常常有比方 ectd,kube-scheduler 等都部署在集群外。其监控流程和下面大抵一样,惟一的区别就是在定义 Service 的时候,其 EndPoints 是须要咱们本人去定义的。
3.2.1、监控 kube-scheduler
(1)、定义 Service 和 EndPoints
prometheus-KubeSchedulerService.yaml
apiVersion: v1
kind: Service
metadata:
name: kube-scheduler
namespace: kube-system
labels:

k8s-app: kube-scheduler

spec:
type: ClusterIP
clusterIP: None
ports:

  • name: http-metrics
    port: 10251
    targetPort: 10251
    protocol: TCP

apiVersion: v1
kind: Endpoints
metadata:
name: kube-scheduler
namespace: kube-system
labels:

k8s-app: kube-scheduler

subsets:

  • addresses:

    • ip: 172.16.0.33
      ports:
    • name: http-metrics
      port: 10251
      protocol: TCP
      复制代码
      (2)、定义 ServiceMonitor
      prometheus-serviceMonitorKubeScheduler.yaml
      apiVersion: monitoring.coreos.com/v1
      kind: ServiceMonitor
      metadata:
      name: kube-scheduler
      namespace: monitoring
      labels:
      k8s-app: kube-scheduler
      spec:
      endpoints:
    • interval: 30s
      port: http-metrics
      jobLabel: k8s-app
      namespaceSelector:
      matchNames:

      • kube-system
        selector:
        matchLabels:
        k8s-app: kube-scheduler
        复制代码
        而后咱们就能够看到其监控上了:

3.2.2、监控 kube-controller-manager
(1)、配置 Service 和 EndPoints,
prometheus-KubeControllerManagerService.yaml
apiVersion: v1
kind: Service
metadata:
name: kube-controller-manager
namespace: kube-system
labels:

k8s-app: kube-controller-manager

spec:
type: ClusterIP
clusterIP: None
ports:

  • name: http-metrics
    port: 10252
    targetPort: 10252
    protocol: TCP

apiVersion: v1
kind: Endpoints
metadata:
name: kube-controller-manager
namespace: kube-system
labels:

k8s-app: kube-controller-manager

subsets:

  • addresses:

    • ip: 172.16.0.33
      ports:
    • name: http-metrics
      port: 10252
      protocol: TCP
      复制代码
      (2)、配置 ServiceMonitor
      prometheus-serviceMonitorKubeControllerManager.yaml
      apiVersion: monitoring.coreos.com/v1
      kind: ServiceMonitor
      metadata:
      labels:
      k8s-app: kube-controller-manager
      name: kube-controller-manager
      namespace: monitoring
      spec:
      endpoints:
    • interval: 30s
      metricRelabelings:

      • action: drop
        regex: etcd_(debugging|disk|request|server).*
        sourceLabels:

        • name
          port: http-metrics
          jobLabel: k8s-app
          namespaceSelector:
          matchNames:
      • kube-system
        selector:
        matchLabels:
        k8s-app: kube-controller-manager
        复制代码
退出移动版