乐趣区

如何在多Kubernetes集群和多租户环境中使用Prometheus监控

过去十年里,我一直在虚拟化和云计算领域工作,在 VMware、Mercury Interactive 和 Oracle 领导产品管理工作,并格外关注 DevOps 方向。直到 2014 年,我开始认真关注并研究容器。当 2015 年 Kubernetes 面向大众推出时,我强烈地感受到,企业需要一种更简单的方法来在其内部环境中部署容器。那时,我创立了 Qubeship.io,提供企业级的容器的 CI / CD 工具。然而——尽管我们尽了全力应对这一问题——管理 Kubernetes 集群仍然是一个巨大的挑战。
而 Rancher,解决了这个复杂的问题。它从最初的容器编排引擎,迅速发展成为多集群、多租户 Kubernetes 管理平台,并解决了全球成千上万家企业在重要的生产环境中落地 Kubernetes 的难题。
Rancher 2.2 进一步推动了这一发展。Rancher 2.2 中将包含许多新功能和错误修复,本文中我将重点分享:

新的 Alpha 版本发布流程
为 Rancher 所管理的集群提供的开箱即用的监控解决方案。

Alpha 版本发布流程
从 Rancher 2.2.0 开始,Rancher Labs 计划在最终 2.2 GA 发布之前发布一系列 alpha 版本。这将为用户提供足够的时间来试验新功能,并帮助发现一些潜在问题。
Alpha 版本无疑是最新最前沿的,它可能包含新功能、增强功能和错误修复。但我们不建议用户将任何 alpha 版本部署于生产环境,并且 Rancher 也不提供升级到 alpha 版本或从 alpha 版本升级的测试或支持。
如果某个特定的 alpha 版本中有某些格外值得注意的功能或修复,我们会在 release note 里将它们着重标记出来。重要的已知问题我们也会标记。我们会做到尽量详细,不过这一清单也并非详尽无遗。
无比希望大家能够尽可能多地向 Rancher 团队提供您在使用 alpha 版本时的反馈 / 意见 / 建议,这也是在产品正式 GA 之前帮助我们最大程度地优化产品的绝佳途径!
多集群、多租户环境中 Prometheus 监控的黑科技
Rancher Labs 正式宣布了将在 Rancher 2.2 中引入对 Prometheus 的里程碑级别的增强支持,从而增强所有 Kubernetes 集群的可见性,同时确保不同项目与用户之间的隔离。Rancher 也因此成为唯一一个在多集群、多租户环境中支持 Prometheus 的解决方案。在 Rancher 2.2,使用 Prometheus 监控 Rancher 管理的 Kubernetes 环境,只需要两个步骤:

选择集群
一键启动监控

搞定!
我们可以做到这一点,因为 Rancher 2.2 配备了完全集成的 Prometheus 和 Grafana。
使用教程:
登陆并选择您要监控的集群。需要注意的是,CPU 利用率、内存利用率和 Pods 图表显示的是系统的当前状态。这些指标尽管很有用,但仅显示现在正在发生的事情。

点开工具选项卡,然后选择“监控”选项。

单击“Prometheus”按钮。关于数据留存以及端口,您都可以使用默认配置。
关于存储 Prometheus 和 Grafana 数据的问题,这里也有添加持久化存储的选项。如果您要启用它,请立即选择它。在本文的这个演示中,我没有选中它们。
保存更改。

导航回集群,此时你就能看到更多其他内容了,包括集群指标、Etcd 指标、Kubernetes 组件指标和 Rancher 日志指标。

展开每个指标后,就能查看到该指标下一层新指标。将鼠标悬停在图表上,还能查看到更多信信息。

使用时间序列下拉列表,你还可以进一步放大并查看系统在不同时间段的性能变化。

单击 Grafana 图标以查看仪表板:

下面我们来看看项目级监控。
项目级监控
在 Rancher 中,项目是一种强大的方式来让多个团队在同一个集群上拥有自己的多租户工作区(或项目)。
选择带有工作负载的项目,然后导航到工具→监控。如果监控尚未启用,可以选择 Prometheus 监控按钮来启用它。
导航回 Workload 选项卡并展开现在可用的“Workload Metrics”部分,以查看所有利用率和 I / O 指标。将鼠标悬停在任意图表上可查看更多详细信息,使用时间序列下拉列表则可以进一步放大并查看特定时间段的情况。

您还可以继续深入研究 Pod 甚至容器级指标。只需单击您想要观察的组件,然后参照执行和上文中一样的步骤,就可以查看到 Pod 指标和容器指标了。

结 论
希望通过本文,您能了解到如何通过 Rancher 2.2 中开箱即用的 Prometheus 和 Grafana 监控解决方案,来简单快速地完成对多 Kubernetes 集群、多租户环境的统一监控。
现已有多个 Alpha 版本可供您体验使用,具体可以参照这里:
https://github.com/rancher/ra…
一如既往,我们无比期待您的使用反馈。产品的 beta 版本将很快与您见面,GA 时间计划为 2019 年初,敬请保持关注!
Keep Rancher-ing!

退出移动版