大家好,我是阿里云云原生利用平台的炎寻,很快乐能和大家一起在 Kubernetes 监控系列公开课上进行交换。本次公开课冀望可能给大家在 Kubernetes 容器化环境中疾速发现和定位问题带来新的解决思路。
为什么须要 Kubernetes 监控?
很多同学对利用性能监控应该并不生疏,这类监控次要关注业务应用逻辑、利用框架和语言运行时,监控对象有线程池满,数据库连贯无奈获取,MySQL,内存溢出,还有各种调用链异样栈等。随着 Kubernetes 容器化技术带来的云原生技术演进,下层利用的开发和运维变得更加简略,但复杂度是恒定的,下层的复杂度升高必然随同着底层的复杂度晋升。如下图所示,复杂度逐步转移到容器虚拟化层以及零碎调用内核层对各种虚拟化技术的反对。每一层都可能呈现问题,且这些问题会影响下层利用。比方容器虚拟化层的 Kubernetes 组件异样,如果调度器异样,Pod 将无奈调度影响利用;比方文件系统相干的零碎调用异样,下层利用无奈读取文件,造成利用问题;比方内核异样,利用过程无奈调度实现工作。
利用想要衰弱稳固的运行,须要的是软件栈端到端的衰弱稳固,尽管当初很多运维团队都搭建了利用监控和系统监控体系,但没有一个监控可能自顶向下、端到端的串联起来各层软件的行为,导致辣手的问题产生时,无从下手解决。在应用层,一个网络申请超时,在客户端和服务端看起来仿佛都没有问题,但实际上是网络层包发送 RTT 过高,重传率过高,亦或是 DNS 解析慢,或者是 CNI 插件慢。如何在 Kubernetes 容器化环境下做到端到端的可观测性是 Kubernetes 监控呈现的意义。
Kubernetes 监控立足于利用监控之下的 Kubernetes 容器界面和底层操作系统。在容器虚拟化层,咱们通过以下五个数据源获取观测数据,通过 Kubernetes 管控组件 exporter 来获取 Kubernetes 管控组件的观测数据;通过 cAdvisor 获取容器的资源观测数据;通过 kube-state-metrics 获取 Kubernetes 资源的状态数据,还有事件和 Kubernetes 资源的状态以及条件数据。在零碎调用层,咱们通过 Kprobe/tracepoints 等 Linux tracing 技术获取观测数据;在内核层,咱们通过内核可观测模块获取观测数据,而后 Kubernetes 监控通过过程、容器、Kubernetes 资源和业务利用的关联关系向上关联买通利用性能监控,打造端到端的可观测性。所以 Kubernetes 监控是 Kubernetes 集群软件栈端到端可观测性的一体化解决方案,在 Kubernetes 监控中能够同时看到关联的所有层的观测数据。咱们心愿通过 Kubernetes 监控的一系列最佳实际,让大家可能应用 Kubernetes 监控解决 Kubernetes 环境下辣手的可观测问题。
咱们也将从两个类型去解说,第一类是发现问题,次要蕴含五类问题的发现:利用架构问题、性能问题、资源问题、调度问题和网络问题。第二类是定位问题,次要蕴含对以上五类发现的问题进行根因定位,并且提供修复倡议。
摸索利用架构,发现预期外的流量
Kubernetes 监控系列公开课第一节课的主题是“如何应用 Kubernetes 监控进行利用架构摸索,发现预期外的流量”,蕴含以下三点内容:
- 背景介绍:利用架构摸索的挑战;
- 典型场景:在哪些场景下,咱们须要进行利用架构的摸索;
- 最佳实际:介绍一种利用架构摸索的模式,高效的发现定位问题。
一、利用架构摸索的挑战
(1)混沌的微服务架构
在 Kubernetes 容器化环境里,微服务架构是最广泛的架构模式。在这种架构下,随着业务倒退,肯定会有越来越多的微服务,他们之间的关系也会越来越简单。在复杂度一直增长的状况下,一些常见架构问题就变得艰难,比方利用以后运行架构是怎么的,利用上游依赖服务是否失常,利用上游客户端流量是否失常,利用 DNS 解析是否失常,两个利用之间的连通性是否有问题等。因而,咱们要进行利用架构摸索,往往变得十分困难。
(2)多语言
在微服务架构外面,各个微服务通常能够应用不同编程语言,只有暴露出规范的服务即可。那么不同语言如何进行监控,是否有雷同的埋点模式,是否对应语言有好用高效的埋点工具呢?代码侵入对性能有什么影响,是否埋点代码会影响业务运行呢?这是多语言场景下面临的观测难题。
(3)多通信协议
在微服务架构外面,各个微服务之间的通信能够应用不同通信协议,比方 HTTP、gRPC、Kafka、Dubbo 等,往往咱们须要辨认这些协定能力疾速发现对应依赖服务的问题,然而辨认协定意味着了解各个协定,在适合的中央须要进行埋点,不同通信协议如何对立埋点代码侵入,是否会影响业务性能,这是通信协议场景下面临的观测难题。
二、典型场景
(1)架构感知
架构感知是依据实在的网络调用,将微服务作为节点,微服务之间的调用作为边,绘制出一张拓扑图。通过比照动态设计的冀望架构,咱们能够发现问题,比方是不是多了或少了某个微服务,微服务之间的关系是不是正确,通常在新利用上线、新地区开服、整体链路梳理等须要关注构造大图的场景应用。
(2)架构异样发现
架构异样发现是指通过自定义架构拓扑图中节点和边的异样规定显示对应的异样色彩,可能疾速发现异常的节点和边,通常在整体链路梳理和衰弱巡检等关注节点和边状态的场景下应用。
(3)关联剖析
通过异样发现定位到某个节点或者边异样之后,咱们通常须要关联关系的切换,疾速查看相干节点或者边的上下游以及对应的本身服务实例,一步一步放大问题范畴。
三、最佳实际
以上三个典型场景形成了残缺的实际流程:通过架构感知观测利用理论运行架构是否和预期统一,如果有结构性问题,须要进一步排查构造异样的服务,如果没有结构性问题,咱们能够进行下一步。通过异样发现观测是否有色彩异样的节点和边,如果没有其异样节点和边就最好,否则咱们进行下一步,定位到特定的节点和边之后,开始进行关联剖析,先剖析本身实例是不是有问题,再看上下游是不是有问题。
Kubernetes 监控是如何反对最佳实际的呢?首先是 Kubernetes 监控集群拓扑的架构感知能力。Kubernetes 监控通过关联实在的网络申请绘制出了利用架构拓扑。以后提供 Service 和 Workload 两种视图,前者是 Service 之间的服务调用,后者是 Deployment、Daemonset、Statefulset 之间的服务调用。
进入拓扑图,默认对节点进行分组收敛,集群内按命名空间分组,集群外按服务类型进行分组。开展分组之后能够看到对应的节点和节点关系,点击节点能够看到选定工夫范畴内的性能指标聚合值和时序值,这些值会按网络协议进行划分,点击边能够看到选定工夫范畴内的性能指标聚合值和时序值,这些值会按网络协议进行划分,再配合节点过滤,比方查看两个特定命名空间的架构关系,以及节点查问,疾速查看一个节点,能够很好的对架构进行摸索。
再看 Kubernetes 监控的异样发现能力,Kubernetes 监控通过三个维度的异样条件,将节点和边绘制成异样的黄或者红的色彩。具体来说,这三个维度是性能指标异样,比如说错误率大于 10%,均匀响应工夫大于 500 毫秒;第二,资源指标异样,比方 CPU 使用率大于 70%,内存使用率大于 70%;第三,K8S 管控状态异样,比方 POD 始终无奈达到 ready 状态,在分组收起的状态下会显示节点分组的异样占比,开展分组能够看到特定的节点变得异样。通过该能力,咱们能够疾速发现特定的微服务或者微服务关系的异样。
Kubernetes 监控还具备关联剖析能力,反对查看特定节点的上下游,提供 3D 视图同时查看节点关联的上下游关系和本身的实力状态,能够在一张图进行所有关联数据的摸索,极大晋升问题定位的效率。
四、Kubernetes 监控的产品价值
阿里云 Kubernetes 监控是一套针对 Kubernetes 集群开发的一站式可观测性产品,它会关联起 Kubernetes 名下的所有指标、链路、日志和事件。次要具备六大个性:
- 代码无侵入:阿里云 Kubernetes 监控通过旁路技术,不须要对代码进行埋点即可获取到丰盛的网络性能数据。
- 语言无关:阿里云 Kubernetes 监控在内核层进行网络协议解析,反对任意语言、任意框架。
- 高性能:阿里云 Kubernetes 监控基于 eBPF 技术,能以极低的耗费获取丰盛的网络性能数据。
- 资源关联:阿里云 Kubernetes 监控通过网络拓扑、资源拓扑展现相干资源的关联。
- 数据多样:阿里云 Kubernetes 监控反对可观测的各种类型数据(监控指标、链路、日志和事件),涵盖端到端的软件栈。
- 整体性:阿里云 Kubernetes 监控通过控制台的场景设计、关联起架构感知拓扑、利用监控、Prometheus 监控、云拨测、衰弱巡检、事件核心、日志服务和云服务。
那么 Kubernetes 监控、利用性能监控、Prometheus 监控有什么异同点呢?下图清晰的表白了这三者的关系和区别,利用性能监控次要关注应用逻辑,框架与编程语言,而 Kubernetes 监控关注的是零碎网络和容器界面,同时会向上关联利用性能监控。Prometheus 监控是基础设施,Kubernetes 监控和利用性能监控的指标类数据将会存储在 Prometheus 监控中。
所以,想要疾速解决 Kubernetes 监测问题,那就立即开始试用吧!目前 Kubernetes 监测全面收费公测中,点击链接(https://www.aliyun.com/activity/middleware/container-monitoring?spm=5176.20960838.0.0.42b6305eAqJy2n)即可开明试用!也欢送大家退出答疑交换群进行交换,咱们下节课再见。