关于云原生:如何使用-Blackbox-Exporter-监控-URL

监控域名和 URL 是可察看性的一个重要方面，次要用于诊断可用性问题。接下来会具体介绍如何应用 Blackbox Exporter 和 Prometheus 在 Kubernetes 中实现 URL 监控。

Blackbox Exporter 是 Prometheus 的一个可选组件，像其余 Exporter 一样，次要用于将监控数据转换为 Prometheus 可了解的指标格局，即 Prometheus exposition format。

Endpoint 监控是指监控外部和内部 Endpoint（HTTP/S、DNS、TCP、ICMP 和 grpc）的各种参数，包含 HTTP 响应工夫、DNS 查问提早、SSL 证书过期信息、TLS 版本等等。

在 Kubernetes 中，不仅仅是内部 Endpoint 须要被监控，外部 Endpoint 也须要被监控响应工夫和其余参数。这些指标是基础设施的一个重要局部，以确保服务的连续性、可用性和合乎一些平安认证。

白盒监控是指对系统外部的监控，包含利用 logging、handlers、tracing 和 metrics。与之绝对，黑盒监控次要从内部发动探测，探测影响用户的行为，如服务器停机、页面不工作或网站性能降落。

Blackbox Exporter 用于探测 HTTPS、HTTP、TCP、DNS、ICMP 和 grpc 等 Endpoint。在你定义 Endpoint 后，Blackbox Exporter 会生成指标，能够应用 Grafana 等工具进行可视化。Blackbox Exporter 最重要的性能之一是测量 Endpoint 的可用性。

下图显示了 Blackbox Exporter 监控一个 Endpoint 的流程：

Blackbox Exporter 的装置很简略，能够通过 Helm Chart 装置：

# 增加 repo
helm repo add prometheus-community https://prometheus-community.github.io/helm-charts
helm repo update

# Install chart
helm install [RELEASE_NAME] prometheus-community/prometheus-blackbox-exporter

🎉

上面是 Blackbox Exporter 配置中定义的一个默认模块：

blackbox.yaml:

modules:
  http_2xx:
    prober: http
    timeout: 15s  
    http:
      fail_if_not_ssl: true
      ip_protocol_fallback: false
      method: GET
      follow_redirects: true
      preferred_ip_protocol: ip4
      valid_http_versions:
        - HTTP/1.1
        - HTTP/2.0
      valid_status_codes:
        - 200
        - 204

你能够相应地配置你本人的blackbox.yml，使探针 (probe) 依据你的配置返回胜利 / 失败。以下面配置为例，具体阐明下 module 和 http probe 的配置：

prober: 探测的协定（能够是：http, tcp, dns, icmp, grpc）。
timeout: 探测超时工夫。
http: http probe

接下来是 http probe 的配置：

valid_status_codes: <int>, ... | default = 2xx: 该 Probe 可承受的状态码。默认为 2xx。倡议应用默认值。
valid_http_versions: 该 Probe 承受的 http 版本。可选值：HTTP/1.1 HTTP/2.0
method: <string> | default = "GET": probe 应用的 http method
headers: probe 应用的 header, 比方能够加一些 user-agent 之类的 header 防止被 WAF 拦挡
body_size_limit: <size> | default = 0 将被解决的最大未压缩的主体长度（字节）。值为 0 意味着没有限度。
compression: 用于解压响应的压缩算法（gzip、br、deflate、ident）。
follow_redirects: <boolean> | default = true: 是否 follow 重定向
fail_if_ssl: 如果存在 SSL，则探测失败
fail_if_not_ssl: 如果不存在 SSL, 则探测失败
fail_if_body_matches_regexp: 如果返回的 body 匹配该正则则失败
fail_if_body_not_matches_regexp: 如果返回的 body 不匹配该正则则失败
fail_if_header_matches: 如果返回的 header 匹配该正则，则失败。对于有多个值的 header，如果 至多有一个 合乎，则失败。
fail_if_header_not_matches: 如果返回的 header 不匹配该正则，则失败。
tls_config: HTTP probe 的 TLS 协定配置，罕用于私人证书。
basic_auth: 指标的 HTTP basic auth 凭证。
bearer_token: <secret>: 模板的 bearer token.
proxy_url 用于连贯到指标的 proxy server 的配置
skip_resolve_phase_with_proxy 当设置了 HTTP 代理（proxy_url）时，跳过 DNS 解析和 URL 变更。
oauth2 用于连贯到模板的 OAuth 2.0 配置
enable_http2 是否启用 http2
preferred_ip_protocol HTTP probe 的 IP 协定 (ip4, ip6)
ip_protocol_fallback
body probe 中应用的 HTTP 申请的主体。

你能够查看这个 example.yml 中的具体例子，理解更多状况。另外还须要在 Prometheus 做一些配置上的扭转，Blackbox Exporter 才会发送与利用的配置相干的指标。

须要在 Prometheus 里配置 scrape 的配置，以及 Blackbox 相干的 Alert Rules.

示例如下：

scrape_configs:
  - job_name: blackbox-exporter
    params:
      module:
        - http_2xx
    scrape_interval: 1m
    scrape_timeout: 10s
    metrics_path: /probe
    scheme: http
    relabel_configs:
      - source_labels: [__address__]
        target_label: __param_target
      - source_labels: [__param_target]
        target_label: instance
      - target_label: __address__
        replacement: prometheus-blackbox-exporter.monitoring:9115
        action: replace
    static_configs:
      - targets:
          - https://ewhisper.cn
          - https://www.ewhisper.cn
          - https://rancher.ewhisper.cn
        labels:
          domain: ewhisper
          environment: test
          cluster: home-k3s

这样间接改 Prometheus 的配置是比拟容易出错的，如果你曾经装置了 Prometheus Operator, 则能够间接通过 probe CRD 来配置，十分不便：

apiVersion: monitoring.coreos.com/v1
kind: Probe
metadata:
  name: ewhisper
  namespace: monitoring
spec:
  jobName: http-get
  interval: 60s
  module: http_2xx
  prober:
    url: prometheus-blackbox-exporter.monitoring:9115
    scheme: http
    path: /probe
  targets:
    staticConfig:
      static:
      - targets:
          - https://ewhisper.cn
          - https://www.ewhisper.cn
          - https://rancher.ewhisper.cn
        labels:
          domain: ewhisper
          environment: test
          cluster: home-k3s

单论 URL, 总结起来，Blackbox Exporter 有以下探测场景：

探测内部 URL
探测 K8S 集群外部 service
探测 K8S 集群外部 Ingress
探测 K8S 集群外部 Pod

配置下面曾经提过，这里就不在赘述。

在 Kubernetes 零碎中，资源和 Endpoint 会随着工夫的推移而呈现和隐没，能够十分有用的探测是对资源的动静探测，包含 pods、service 和 ingress。

在 Prometheus 中应用 Kubernetes 服务发现配置，咱们能够实现 Endpoint 的动静探测。Kubernetes 服务发现配置容许从 Kubernetes 的 API 中获取刮削指标，并始终与集群状态放弃同步。你能够在文档的 kubernetes_sd_config 局部找到能够配置为发现指标的可用角色列表。

kubernetes_sd_configs:
  - role: service
    metrics_path: /probe
    params:
      module:
      - http_2xx
    relabel_configs:
    - action: keep
      regex: true
      source_labels:
      - __meta_kubernetes_service_annotation_prometheus_io_probe
    - source_labels:
      - __address__
      target_label: __param_target
    - replacement: prometheus-blackbox-exporter.monitoring:9115
      target_label: __address__
    - source_labels:
      - __param_target
      target_label: instance
    - action: labelmap
      regex: __meta_kubernetes_service_label_(.+)
    - source_labels:
      - __meta_kubernetes_namespace
      target_label: kubernetes_namespace
    - source_labels:
      - __meta_kubernetes_service_name
      target_label: kubernetes_name

这里咱们能够应用 [__meta_kubernetes_service_annotation_prometheus_io_probe] 来只查看那些有 prometheus.io/probe = true 正文的服务，示例如下：

➜ kubectl describe svc nginx
...
Annotations:              prometheus.io/probe: true
...

    - job_name: "blackbox-kubernetes-ingresses"
      metrics_path: /probe
      params:
        module: [http_2xx]
      kubernetes_sd_configs:
      - role: ingress
      relabel_configs:
      # 示例从新标记，只探测有 "prometheus.io/probe = true" 正文的一些接入点。#  - source_labels: [__meta_kubernetes_ingess_annotation_prometheus_io_probe]
      #    action: keep
      #    regex: true
        - source_labels:
            [
              __meta_kubernetes_ingress_scheme,
              __address__,
              __meta_kubernetes_ingress_path,
            ]
          regex: (.+);(.+);(.+)
          replacement: ${1}://${2}${3}
          target_label: __param_target
        - target_label: __address__
          replacement: prometheus-blackbox-exporter.monitoring:9115
        - source_labels: [__param_target]
          target_label: instance
        - action: labelmap
          regex: __meta_kubernetes_ingress_label_(.+)
        - source_labels: [__meta_kubernetes_namespace]
          target_label: kubernetes_namespace
        - source_labels: [__meta_kubernetes_ingress_name]
          target_label: ingress_name

    - job_name: "blackbox-kubernetes-pods"
      metrics_path: /probe    
      params:
        module: [http_2xx]
      kubernetes_sd_configs:
      - role: pod        
      relabel_configs:
      # 示例从新标记，只探测有
      # "prometheus.io/probe = true" 正文的 pod。#  - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_probe]
      #    action: keep
      #    regex: true
        - source_labels: [__address__]
          target_label: __param_target
        - target_label: __address__
          replacement:  prometheus-blackbox-exporter.monitoring:9115
        - source_labels: [__param_target]
          replacement: ${1}/health
          target_label: instance          
        - action: labelmap
          regex: __meta_kubernetes_pod_label_(.+)
        - source_labels: [__meta_kubernetes_namespace]
          target_label: kubernetes_namespace
        - source_labels: [__meta_kubernetes_pod_name]
          target_label: kubernetes_pod_name

一旦更改被 apply，Blackbox Exporter 的资源被部署，咱们能够在 Prometheus 中验证指标的状态。咱们能够通过跳转到状态选项卡，而后在 Prometheus UI 中抉择 targets，来查看 Blackbox Exporter 是否与注册的指标一起启动。

在这里你能够看到咱们应用 https://rancher.ewhisper.cn 作为内部指标来参考，其状态是 404。咱们还能够通过寻找以 probe_ 结尾的指标来查看指标是否被收集。

在这里你能够看到一些生成的probe_ 的指标列表。

指标名	性能
`probe_duration_seconds`	返回探针实现的工夫（秒）。
`probe_http_status_code`	响应 HTTP 状态代码
`probe_http_version`	返回探针响应的 HTTP 版本
`probe_success`	显示探测是否胜利
`probe_dns_lookup_time_seconds`	返回探测 DNS 的工夫，单位是秒。
`probe_ip_protocol`	指定探针 IP 协定是 IP4 还是 IP6
`probe_ssl_earliest_cert_expiry metric`	返回以 unixtime 为单位的最早的 SSL 证书到期工夫
`probe_tls_version_info`	蕴含所应用的 TLS 版本
`probe_failed_due_to_regex`	示意探测是否因 regex 匹配而失败
`probe_http_content_length`	HTTP 内容响应的长度

能够间接复用 Grafana 上的一些 Dashboard, 查看 URL 的指标：

点这里👉Blackbox Grafana 搜寻和下载对应的 Grafana Dashboard.

开源收费的 Blackbox Endpoint 监控工具；
除了 HTTP/S, 还反对 DNS、TCP、ICMP 和 grpc
丰盛的 HTTP 黑盒监控配置，如 Header、认证、代理、正则匹配等。
利用 Prometheus + Kubernetes 的 kubernetes_sd_config 性能动静地产生指标，并可用于动静 Endpoint 监控。
能够监控证书过期工夫。

为什么须要 Blackbox Exporter?

以我所相熟的保险行业为例，大中型保险公司，都是采纳相似：

总部
省级分公司
核心支公司
中公司
营业部

这样的组织模式。分支机构往往是通过专线和总部连贯，并应用总部提供的各类保险业务零碎。

尽管国内外有各种工具和服务可用于监控域名和 URL, 如听云、Dynatrace 等。然而

一方面，服务是按探测次数免费的，如果探测频率、探测 URL 过多，价格不低的；
另一方面，这些商业化服务可能无奈笼罩保险行业这种近乎内网的网络架构。

在这种状况下，Blackbox Exporter 是现有解决方案的一个开源替代品，由 Prometheus 社区保护。

而且，Prometheus + Blackbox Exporter + Kubernetes 动静发现，能够大大减少人工配置大量 URL 探测的工作。

另外，针对下面提到的状况，也能够应用 Prometheus + Blackbox Exporter + 轻量级 K8s 解决方案如 K3s，将 probe 节点部署到各个分支机构，实现和分支机构员工完全相同的拜访门路。分支 - 总部各零碎网络可用性高深莫测，及时发现分支 - 总部各零碎网络问题。

通过本文，咱们探讨了：

什么是 Blackbox Exporter
如何装置和配置它
几种典型的配置场景，特地是利用 Prometheus + Blackbox Exporter + Kubernetes 动静发现
Blackbox Exporter 劣势
Blackbox Exporter 的行业利用场景

心愿对各位读者有所帮忙。

🎉🎉🎉

How to Monitor Endpoints in Kubernetes using Blackbox Exporter (infracloud.io)
prometheus/blackbox_exporter: Blackbox prober exporter (github.com)
Probing Endpoints with Blackbox-Exporter. How ? Why ? | by Yasintahaerol | Trendyol Tech | Medium

关于云原生:如何使用-Blackbox-Exporter-监控-URL

前言

Blackbox Exporter 简介

Endpoint 监控

白盒（WhiteBox）与黑盒（Blackbox）监控

Blackbox Exporter

Blackbox Exporter 装置和配置

应用 Helm 装置 Blackbox Exporter

Blackbox 根本配置

Prometheus 中的配置

Blackbox 的 Prometheus Scrape 配置

Blackbox Exporter 探测场景

场景一：探测内部 URL

场景二：探测 K8S 集群外部 service

场景三：探测 K8S 集群外部 Ingress

场景四：探测 K8S 集群外部 Pod

在 Prometheus 验证生成的指标

应用 Grafana 监控配置的 URL

Blackbox 的劣势梳理

Blackbox Exporter 的行业利用场景

总结

📚️ Reference