关于ebpf:基于eBPF的云原生可观测性开源项目Kindling之网络详情面板

Kindling 通过 eBPF 技术实现了无侵入性的容器环境监控，在调用拓扑图上展现了黄金指标：申请量、申请延时、申请错误率、发送和接管的网络流量，帮忙理解集群中不同节点的根本性能状况。当须要进一步排查问题时，还须要通过其余面板来定位具体的问题边界，本期给大家介绍 Kindling 的网络详情面板。
上面是 Kindling 中单 K8S 集群下某个命名空间的调用拓扑，通过图能够看到 prometheus-k8s 与 process-exporter 的工作负载间通信 SRTT 比拟高，可能存在物理网络的问题。那 SRTT 指标的变化趋势是怎么的，是否有突增景象？这个时候就能够应用网络详情面板来进一步排查了。

网络详情面板次要用来查看整个集群下 POD 间的网络状况。在通过拓扑图找到网络指标异样的 POD 后，能够通过本面板来进一步排查。面板的最下面区域是检索区域。通过筛选源端工作负载和目标端工作负载，能够只查看感兴趣的工作负载下 POD 间的网络状况。

也能够通过面板上面的列表区域间接增加检索字段，来更细粒度的筛选感兴趣的 POD。

例如查看源端 POD 为 alertmanager-main- 0 的数据。

面板剩下的局部分为 4 个区域。上面每个区域能够解决什么问题。

这个区域的指标能够用来评估整体容器网络的状况，并提供具体的 SRTT 指标的变化趋势。

重传数：展现了容器网络重传包的数量。若产生重传数突增，而整体申请量和网络流量没有突增或者错误率突增的状况下，则示意容器网络不稳固或者性能变差。须要排查物理网络的问题。
丢包数：展现了工作负载在解决从容器网络中接管的数据包时，在网络协议栈中失落包的数量。若这个数量突增，示意呈现了比如说缓冲区满、包非法等状况而把包抛弃，或者 iptable 等防火墙设置谬误。
SRTT：每条线展现了工作负载之间的往返延时，即咱们应用 ping 去探测的网络延时。SRTT 过高很容易引起申请超时。

工作负载连贯详情区域

该列表能够查看单个集群下有产生过通信的 2 个工作负载间的申请延时、SRTT、发送流量、接管流量、丢包数等。通过该表能够帮忙找到利用容器网络层面问题，而造成通信性能差的具体两段的 POD 名称，以便咱们能够有针对性的进行前面的物理网络排查。能够看到 prometheus-k8s 与 process-exporter 的 SRTT 比拟高，和拓扑图中的一样。

重传详情区域

该列表显示了哪些 POD 之间有重传，能够看到产生数据包重传两端的具体信息：源端命名空间、源端工作负载、源端 POD、源端 IP、目标端命名空间、目标端工作负载、目标端 POD、目标端 IP 以及具体的重传数量。能够筛选出特定范畴内的 POD，例如 prometheus-k8s 与 process-exporter 间工作负载的详情数据。

丢包详情区域

和上述列表一样，能够看到 POD 级别，只是显示的是丢包数指标。该列表显示了哪些 POD 之间有丢包，能够查看产生网络协议栈丢包两端的具体信息：源端命名空间、源端工作负载、源端 POD、源端 IP、目标端命名空间、目标端工作负载、目标端 POD、目标端 IP 以及具体的丢包数量。

Kindling 是一款基于 eBPF 的云原生可观测性开源工具，旨在帮忙用户更好更快的定界云原生零碎问题，并致力于打造云原生全故障域的定界能力。
关注咱们

退出咱们

网络详情面板

整体指标区域

工作负载连贯详情区域

重传详情区域

丢包详情区域