关于阿里云:阿里云注册集群Prometheus-解决多云容器集群运维痛点

1次阅读

共计 5632 个字符,预计需要花费 15 分钟才能阅读完成。

作者:左知

容器集群可观测现状

随着 Kubernetes(K8s)容器编排工具曾经成为事实上行业通用技术底座,容器集群监控经验多种计划实际后,Prometheus 最终成为容器集群监控的事实标准。

Promethues 监控服务可无效监控零碎层指标、应用层指标、业务层指标等,采集监控指标后进行存储,搭配 Grafana 可实现监控指标的展现和告警等。

Prometheus + Grafana 计划可无效进行容器集群监控指标采集、存储、展现、告警等,无效帮忙业务发现和定位问题,为云原生下的利用保驾护航,曾经成为业内容器集群监控规范组合计划。

目前企业运维容器集群,有两种计划能够抉择,第一种抉择自建监控体系;第二种抉择云厂商提供的监控产品。

第一种自建监控体系:Prometheus + Grafana 入门应用并不难,但基于此计划进行自建整套监控体系且达到生产可用程度绝非易事,不仅须要投入一定量研发和运维人员,而且须要关注监控体系中各局部的合作,例如指标采集配置、指标存储、指标展现、无效大盘配置、告警配置、有效告警过滤等等诸多事项,这让很多开发和运维人员头痛和头秃,甚至最终走上从入门到放弃之路,赔了夫人又折兵。

第二种应用云厂商提供的监控产品:其中阿里云提供的 Prometheus 监控产品,有包年包月和按量付费两种模式,可缩小自行搭建告警体系的后期投入的老本,也提供后续的技术运维反对,能够极大地缩小运维老本。

多云容器集群可观测挑战

随着企业云上业务的多样化和复杂化,不可避免地呈现跨区跨云厂商容器集群混用的状态,进而从以往繁多容器集群运维变成多云容器集群运维。

面对多云混合的容器集群监控,可采纳自建 Prometheus + Grafana 监控体系,将面临如下挑战:

  • 自建齐备的监控体系,须要买通采集、存储、展现、告警等各个局部,且须要后续继续运维 SRE 人员投入,导致运维成本上升 
  • 开源 Prometheus 对应的 TSDB 采纳 SSD 存储模式,数据单点扩散存储,存在数据失落危险 
  • 开源 Prometheus 采集能力存在肯定的瓶颈,且为单点运行无奈做到弹性伸缩,业务顶峰时可能呈现监控数据采集性能瓶颈 

亦或采纳云厂商提供的 Prometheus 监控产品,将面临如下挑战:

  • 跨云厂商,不同云厂商提供的 Prometheus 监控产品能力和应用形式不尽相同,须要肯定的学习老本 
  • 扩散治理,不同云厂商监控产品混用状况下,无奈进行对立治理,容易造成治理低效和凌乱、运维上的反复、无奈及时发现业务问题 

无论应用上述哪种计划,都会面临一个独特的问题,即监控指标扩散,无奈做到对立查问、联结剖析展现、对立告警等。为实现监控数据对立查问和告警,可采纳开源 Prometheus 联邦模式,存在如下诸多问题:

  • 容器集群内需部署 Prometheus 进行指标采集,不同容器集群内需进行反复配置 
  • 通过 Federate 形式将扩散的监控数据进行中心化聚合,强依赖网络联通行,占用较多网络带宽资源 
  • Federate 模式依赖网络的连通性和稳定性,当网络提早呈现时极易造成查问不到数据,告警不失效等 
  • 核心 Prometheus 存储单点存在宕机危险,若采纳多活模式时,还须要解决数据一致性等问题 

亦或采纳 Thanos 计划实现数据对立查问,亦将面临如下艰难:

  • 运维负担重,须要将 Thanos Sidercar 做为独自过程与 Prometheus Server 一起部署和配置,并需提前布局容量,后续运维较繁琐
  • 资源节约,Sidercar 将本地数据同步到云端的对象存储时,依赖网络性能,占用肯定的网络带宽资源 
  • 告警有效性难以保障,大跨度查问历史数据时,须要从云端对象存储中获取,若后期同步数据出现异常,会导致前期查问不到无效数据
  • 对立查问数据时,须要进行实时聚合数据,并进行去重、计算等操作 

阿里云 Prometheus 监控劣势

为了解决上述问题,阿里云注册集群提供纳管能力,行将非阿里云容器集群进行对立治理,可无效解决多云容器集群治理扩散的问题。阿里云 Promethues 监控产品,提供包含指标采集、Grafana 展现、告警等整套的容器监控体系,反对按量计费和包年包月两种付费模式,可无效晋升容器集群监控效率,极大地缩小自建监控体系所面临的运维老本。阿里云注册集群 +Promethues 监控产品组合,将多云容器集群监控变得简略且高效,诸多问题迎刃而解。

  • 能力较强,可无效解决多云容器集群监控面临的治理扩散、监控体系搭建艰难、运维效率低下、指标无奈联结查问、告警无奈对立等诸多问题,将多云扩散的容器集群监控进行对立治理、对立配置、对立查问、对立告警等,极大地晋升多云容器集群监控的效率,节俭 SRE 人员投入的老本,让 SRE 人员缩小重复性劳动,更加聚焦于业务。
  • 费用低廉,阿里云 Promethues 监控产品提供收费的根底指标采集,可笼罩容器集群的根底监控需要。小规模容器集群可采纳按量计费模式,保障业务失去无效监控的同时,最大水平升高监控费用收入。大规模集群,可采纳包年包月模式,相比于按量计费,包年包月模式可无效缩小约 60% 老本,将大规模集群监控老本极大地升高。
  • 资源占用较少,阿里云 Prometheus 监控产品,仅在用户集群中轻量化部署 Agent,且具备主动弹性扩容能力,2C4G 资源申请量可采集 600 万指标。开源 Prometheus 的服务发现模块存在对集群内 APIServer 造成较大压力问题,而阿里云 Prometheus 进行了专项优化,无效加重 APIServer 的压力。最终实现最小资源占用,最大化采集容器集群监控指标,为业务保驾护航。

劣势一:性能晋升

劣势二:多集群 Prometheus 聚合查问

提供多个阿里云 Prometheus 实例或自建 Prometheus 集群的虚构聚合实例,针对这个虚构聚合实例能够实现 Prometheus 指标的对立查问,对立 Grafana 数据源和对立告警。

  • 解决开源的 Prometheus 数据扩散保留,Grafana 中须要配置多个数据源地址,不同的数据源无奈高效地整合在一起,难以以整体的视角剖析利用在寰球各个地区的运行状况 
  • 用户无需在每个区域自行部署 Prometheus Server,只须要以 remote write 形式将数据上报至阿里云 Prometheus,也无需部署 Thanos 中的大量组件,无其余组件部署的依赖即可应用 GlobalView 的性能 
  • 全局查问基于分布式的查问,并进行了性能优化,针对大查问能够随时实现程度、纵向扩缩,查问性能、稳定性较好 
  • 开箱即用式形式,基于阿里云 Prometheus 监控产品,无需任何其余组件额定部署,运维老本极低 

如下为跨可用区,聚合两个 Pormetheus 实例:

劣势三:轻量化装置

比照开源装置形式,阿里云 Prometheus 监控产品,仅需在用户容器集群内装置轻量化探针,后端存储采纳托管模式,可节俭业务容器集群资源占用。

劣势四:集成 Grafana 服务

阿里云 Grafana 服务是云原生的运维数据可视化平台,提供免运维和疾速启动 Grafana 运行环境的能力,具备如下劣势:

  • 默认集成 Prometheus、SLS 等各类阿里云服务数据源,并反对第三方或自建数据源,疾速建设一体化运维可视化看板
  • 独享实例与高 SLA 保障,确保监控体系高可用与弹性,让运维监控更牢靠,保护老本更低
  • 买通阿里云账号 SSO 与自建账号体系,保障数据安全同时,实现数据源与大盘的精细化治理
  • 可能解决数据汇总难:各类云服务监控数据难以汇总对立,减少运维难度运维监控艰难:各类云服务外围指标监控图表须要反复配置告警治理难:各类云服务的告警规定互相扩散,难以对立治理
  • 可能提供默认集成:默认集成弹性计算、数据库等阿里云外围云服务对立大盘:建设跨数据源对立看板体系,让可视化运维更精密对立告警:轻松搭建一体化报警体系,晋升报警管理效率

劣势五:集成告警零碎

阿里云 Prometheus 服务默认对接了阿里云上的对立告警零碎,对立告警具备以下特点

  • 全球化
    • 告警规定模板全球化,一站式为寰球事件配置告警
    • 联系人、告诉策略全球化,一次配置寰球失效 
  • 集成事件后治理更高效
    • 告警治理默认反对一键化集成阿里云常见的监控工具,并反对更多的监控工具手动接入,不便对立保护
    • 事件接入模块稳固,能提供 7×24 小时的无间断事件处理服务
    • 解决海量事件数据时能够保障低延时 
  • 及时精确地将告警告诉给联系人
    • 配置告诉规定,对事件合并后再发送告警告诉,缩小运维人员呈现告诉疲劳的状况
    • 依据告警的紧急水平抉择邮件、短信、电话、钉钉等不同的告诉形式,来揭示联系人解决告警
    • 通过降级告诉对长时间没有解决的告警进行屡次揭示,保障告警及时解决 
  • 帮忙您疾速便捷地治理告警
    • 联系人能通过钉钉随时解决告警
    • 应用通用告警格局,联系人能更好地剖析告警
    • 多个联系人通过钉钉协同解决 
  • 告警事件再加工
    • 通过事件处理流编排简略的解决流程,对任意告警源上报的告警事件进行再加工,以满足差异化的事件数据处理需要
    • 事件治理反对对任意告警源上报的告警事件去重、压缩、降噪、静默,从而收敛告警,缩小告警风暴的产生 
  • 告警配置管理
    • 提供容器集群常见外围指标监控模版,同时提供告警模版性能可自行生成和下发告警模版,实现疾速批量化配置告警
    • 提供页面化告警配置疏导和预览,可实时查看告警条件匹配事件,并进行精细化配置 
  • 统计告警数据,实时剖析解决状况,改良告警解决效率,剖析业务运行状况

多云容器集群接入阿里云 Prometheus 示例

纳管多云容器集群

前提条件

  • 登录 RAM 治理控制台和弹性伸缩控制台开明相应的服务。
  • 反对通过公网和内网接入 

创立阿里云注册集群

  1. 登录容器服务治理控制台。
  2. 在控制台左侧导航栏中,单击集群。
  3. 在集群列表页面中,单击页面右上角的创立集群。
  4. 在注册集群页签,实现创立集群配置项。
  1. 实现上述抉择后,在页面右侧单击创立集群,待集群创立胜利后,能够在集群列表,看到创立的集群类型为注册集群且处于期待接入状态。

将多星散群纳管到阿里云注册集群

如下以腾讯云的 Kubernetes 为例,介绍如何将腾讯云的 Kubernetes 集群通过阿里云的注册集群进行对立纳管,进而应用阿里云 Arms Prometheus 监控进行指标抓取和展现。

1)在上步创立的注册集群 registCluster 为例子,右侧单击操作列下的详情

2)在集群信息页面单击连贯信息页签,查看公网集群导入形式点击右侧复制

3)在腾讯星散群页面抉择指标集群,点击右上角 YAML 创立资源,将上步复制的连贯信息填入点击实现进行代理装置

4)腾讯星散群页面查看 Deployment,ack-cluster-agent 处于失常运行状态代表代理装置胜利

5)阿里云容器集群治理页面查看上述创立的注册集群处于运行中,代表纳管胜利

装置 Prometheus 组件

1)登陆 容器服务治理控制台,运维治理  -> 组件治理 -> ack-arms-prometheus 组件,点击装置 ARMS Prometheus 组件

2)腾讯云容器集群页面,工作负载 -> Deployment -> 抉择 arms-prom 命名空间,查看 arms-prometheus-ack-arms-prometheus 处于运行状态代表组件装置胜利

3)登陆 利用实时监控服务 ARMS 页面,抉择 Prometheus 监控 -> Prometheus 实例列表 -> 抉择上述创立的 registCluster 注册集群

左侧服务发现,查看默认配置的 Targets 处于采集状态,代表 ARMS Prometheus 组件正在采集 Metrics 指标数据,点击可查看具体源数据。

查看监控数据

默认集成罕用 Grafana 大盘,包含 Deployment 大盘、Daemonst 大盘等

点击具体大盘可查看具体 Metrics 指标数据,例如点击查看 Deployment 大盘

查看 ARMS 告警

默认开启泛滥容器集群外围指标监控,免去自行开启产生脱漏问题

默认集成泛滥外围指标告警模版,可依据自行需要进行开启,免去自行编写 PromQL 步骤。

对于阿里云 Prometheus 监控

阿里云 Prometheus 服务是基于云原生可观测事实标准 – Prometheus 开源我的项目构建的全托管观测服务。默认集成常见云服务,兼容支流开源组件,全面笼罩业务观测 / 应用层观测 /˙中间件观测 / 零碎层观测。通过开箱即用的 Grafana 看板与智能告警性能,并全面优化探针性能与零碎可用性,帮忙企业疾速搭建一站式指标可观测体系。助业务疾速发现和定位问题,加重故障给业务带来的影响,并免去零碎搭建与日常保护工作量,无效晋升运维观测效率。

与此同时,阿里云 Prometheus 作为阿里云可观测套件的重要组成部分,与 Grafana 服务、链路追踪服务,造成指标存储剖析、链路存储剖析、异构构数据源集成的可观测数据层,同时通过规范的 PromQL 和 SQL,提供数据大盘展现,告警和数据摸索能力。为 IT 老本治理、企业危险治理、智能运维、业务连续性保障等不同场景赋予数据价值,让可观测数据真正做到不止于观测。

分割咱们

阿里云注册集群开明形式:

https://help.aliyun.com/docum…

阿里云 Prometheus 监控产品开明形式:

https://help.aliyun.com/produ…

阿里云 Prometheus 全新推出 包年包月 模式,相比按量付费 至多 节俭 67% 老本 ,更有 首月收费 的优惠,点击浏览原文查看。

相干链接

[1] RAM 治理控制台

https://ram.console.aliyun.com/

*[2] 弹性伸缩控制台 *

https://essnew.console.aliyun…

*[3] 接入注册集群的指标集群对于网络连通性有什么要求?*

https://help.aliyun.com/docum…

*[4] 容器服务治理控制台 *

https://cs.console.aliyun.com/

*[5] 利用实时监控服务 ARMS 页面 *

https://arms.console.aliyun.c…

正文完
 0