Kindling 通过 eBPF 技术实现了无侵入性的容器环境监控,在调用拓扑图上展现了黄金指标:申请量、申请延时、申请错误率、发送和接管的网络流量,帮忙理解集群中不同节点的根本性能状况。当须要进一步排查问题时,还须要通过其余面板来定位具体的问题边界,本期给大家介绍 Kindling 的网络详情面板。
上面是 Kindling 中单 K8S 集群下某个命名空间的调用拓扑,通过图能够看到 prometheus-k8s 与 process-exporter 的工作负载间通信 SRTT 比拟高,可能存在物理网络的问题。那 SRTT 指标的变化趋势是怎么的,是否有突增景象?这个时候就能够应用网络详情面板来进一步排查了。
网络详情面板
网络详情面板次要用来查看整个集群下 POD 间的网络状况。在通过拓扑图找到网络指标异样的 POD 后,能够通过本面板来进一步排查。面板的最下面区域是检索区域。通过筛选源端工作负载和目标端工作负载,能够只查看感兴趣的工作负载下 POD 间的网络状况。
也能够通过面板上面的列表区域间接增加检索字段,来更细粒度的筛选感兴趣的 POD。
例如查看源端 POD 为 alertmanager-main- 0 的数据。
面板剩下的局部分为 4 个区域。上面每个区域能够解决什么问题。
整体指标区域
这个区域的指标能够用来评估整体容器网络的状况,并提供具体的 SRTT 指标的变化趋势。
- 重传数:展现了容器网络重传包的数量。若产生重传数突增,而整体申请量和网络流量没有突增或者错误率突增的状况下,则示意容器网络不稳固或者性能变差。须要排查物理网络的问题。
- 丢包数:展现了工作负载在解决从容器网络中接管的数据包时,在网络协议栈中失落包的数量。若这个数量突增,示意呈现了比如说缓冲区满、包非法等状况而把包抛弃,或者 iptable 等防火墙设置谬误。
-
SRTT:每条线展现了工作负载之间的往返延时,即咱们应用 ping 去探测的网络延时。SRTT 过高很容易引起申请超时。
工作负载连贯详情区域
该列表能够查看单个集群下有产生过通信的 2 个工作负载间的申请延时、SRTT、发送流量、接管流量、丢包数等。通过该表能够帮忙找到利用容器网络层面问题,而造成通信性能差的具体两段的 POD 名称,以便咱们能够有针对性的进行前面的物理网络排查。能够看到 prometheus-k8s 与 process-exporter 的 SRTT 比拟高,和拓扑图中的一样。
重传详情区域
该列表显示了哪些 POD 之间有重传,能够看到产生数据包重传两端的具体信息:源端命名空间、源端工作负载、源端 POD、源端 IP、目标端命名空间、目标端工作负载、目标端 POD、目标端 IP 以及具体的重传数量。能够筛选出特定范畴内的 POD,例如 prometheus-k8s 与 process-exporter 间工作负载的详情数据。
丢包详情区域
和上述列表一样,能够看到 POD 级别,只是显示的是丢包数指标。该列表显示了哪些 POD 之间有丢包,能够查看产生网络协议栈丢包两端的具体信息:源端命名空间、源端工作负载、源端 POD、源端 IP、目标端命名空间、目标端工作负载、目标端 POD、目标端 IP 以及具体的丢包数量。
Kindling 是一款基于 eBPF 的云原生可观测性开源工具,旨在帮忙用户更好更快的定界云原生零碎问题,并致力于打造云原生全故障域的定界能力。
关注咱们
退出咱们