乐趣区

关于后端:使用-eBPF-技术实现更快的网络数据包传输

在 上篇文章 用了整篇的内容来形容网络数据包在 Kubernetes 网络中的轨迹,文章开端,咱们提出了一种假如:同一个内核空间中的两个 socket 能够间接传输数据,是不是就能够省掉内核网络协议栈解决带来的提早?

不论是同 pod 中的两个不同容器,或者同节点的两个 pod 间的网络通信,实际上都产生在同一个内核空间中,互为对端的两个 socket 也都位于同一个内存中。而在上篇文章的结尾也总结了数据包的传输轨迹实际上是 socket 的寻址过程,能够进一步将问题开展:同一节点上的两个 socket 间的通信,如果能够 疾速定位到对端的 socket — 找到其在内存中的地址,咱们就能够跳过内核协定栈的环节进而减速数据包的传输。

互为对端的两个 socket 也就是建设起连贯的客户端 socket 和服务端 socket,他们能够通过 IP 地址和端口进行关联。客户端 socket 的本地地址和端口,是服务端 socket 的远端地址和端口;客户端 socket 的远端地址和端口,则是服务端 socket 的本地地址和端口。

当客户端和服务端在实现连贯的建设之后,如果能够应用本地地址 + 端口和远端地址 + 端口端口的组合 指向 socket,仅需调换本地和远端的地址 + 端口,即可定位到对端的 socket,而后将数据间接写到对端 socket(理论是写入 socket 的接管队列 RXQ,这里不做开展),就能够避开内核网络栈(包含 netfilter/iptables)甚至是 NIC 的解决。

如何实现?看题目应该也猜出来了,这里借助 eBPF 技术。

eBPF 是什么?

Linux 内核始终是实现监控 / 可观测性、网络和平安性能的现实中央。不过很多状况下这并非易事,因为这些工作须要批改内核源码或加载内核模块,最终实现模式是在已有的层层形象之上叠加新的形象。eBPF 是一项革命性技术,它能在内核中运行沙箱程序(sandbox programs),而无需批改内核源码或者加载内核模块。

将 Linux 内核变成可编程之后,就能基于现有的(而非减少新的)形象层来打造更加智能、性能更加丰盛的基础设施软件,而不会减少零碎的复杂度,也不会就义执行效率和安全性。

利用场景

上面截取了 eBPF.io 网站的介绍。

网络 方面,在不来到内核空间的状况下应用 eBPF 能够放慢数据包处理速度。增加额定的协定解析器并轻松编写任何转发逻辑以满足一直变动的需要。

可观测性 方面,应用 eBPF 能够自定义指标的收集和内核聚合,以及从泛滥起源生成可见性事件和数据结构,而无需导出样本。

链路跟踪与剖析 方面,将 eBPF 程序附加到跟踪点以及内核和用户应用程序探测点,能够提供弱小的查看能力和独特的洞察力来解决零碎性能问题。

平安 方面,将查看和了解所有零碎调用与所有网络的数据包和套接字级别视图相结合,来创立在更多上下文中运行并具备更好管制级别的平安零碎。

事件驱动

eBPF 程序是事件驱动的,当内核或应用程序通过某个 hook(钩子)点时运行。预约义的钩子类型包含零碎调用、函数进入 / 退出、内核跟踪点、网络事件等。

Linux 的内核在零碎调用和网络栈上提供了一组 BPF 钩子,通过这些钩子能够触发 BPF 程序的执行,上面就介绍常见的几种钩子。

  • XDP:这是网络驱动中接管网络包时就能够触发 BPF 程序的钩子,也是最早的点。因为此时还没有进入内核网络协议栈,也未执行高老本的操作,比方为网络包调配 sk_buff,所以它非常适合运行删除歹意或意外流量的过滤程序,以及其余常见的 DDOS 爱护机制。
  • Traffic Control Ingress/Egress:附加到流量管制(traffic control,简称 tc)ingress 钩子上的 BPF 程序,能够被附加到网络接口上。这种钩子在网络栈的 L3 之前执行,并能够拜访网络包的大部分元数据。能够解决同节点的操作,比方利用 L3/L4 的端点策略、转发流量到端点。CNI 通常应用虚拟机以太接口对 veth 将容器连贯到主机的网络命名空间。应用附加到主机端 veth 的 tc ingress 钩子,能够监控来到容器的所有流量(当然也能够附加到容器的 eth0 接口上)。也能够用于解决跨节点的操作。同时将另一个 BPF 程序附加到 tc egress 钩子,Cilium 能够监控所有进出节点的流量并执行策略。

下面两种属于网络事件类型的钩子,上面介绍同样是网络相干的,套接字的零碎调用。

  • Socket operations:套接字操作钩子附加到特定的 cgroup 并在套接字的操作上运行。比方将 BPF 套接字操作程序附加到 cgroup/sock_ops,应用它来监控 socket 的状态变动(从 bpf_sock_ops 获取信息),特地是 ESTABLISHED 状态。当套接字状态变为 ESTABLISHED 时,如果 TCP 套接字的对端也在以后节点(也可能是本地代理),而后进行信息的存储。或者将程序附加到 cgroup/connect4 操作,能够在应用 ipv4 地址初始化连贯时执行程序,对地址和端口进行批改。
  • Socket send:这个钩子在套接字执行的每个发送操作上运行。此时钩子能够查看音讯并抛弃音讯、将音讯发送到内核网络协议栈,或者将音讯重定向到另一个套接字。这里,咱们能够应用其实现 socket 的疾速寻址。

Map

eBPF 程序的一个重要方面是共享收集的信息和存储状态的能力。为此,eBPF 程序能够利用 eBPF Map 的概念存储和检索数据。eBPF Map 能够从 eBPF 程序拜访,也能够通过零碎调用从用户空间中的应用程序拜访。

Map 有多种类型:哈希表、数组、LRU(最近起码应用)哈希表、环形缓冲区、堆栈调用跟踪等等。

比方下面附加到 socket 套接字上用来在每次发送音讯时执行的程序,实际上是附加在 socket 哈希表上,socket 就是键值对中的值。

辅助函数

eBPF 程序不能调用任意内核函数。如果这样做会将 eBPF 程序绑定到特定的内核版本,并会使程序的兼容性复杂化。相同,eBPF 程序能够对辅助函数进行函数调用,辅助函数是内核提供的家喻户晓且稳固的 API。

这些 辅助函数 提供了不同的性能:

  • 生成随机数
  • 获取以后工夫和日期
  • 拜访 eBPF Map
  • 获取过程 /cgroup 上下文
  • 操纵网络数据包和转发逻辑

实现

讲完 eBPF 的内容,对实现应该会有一个大略的思路了。这里咱们须要两个 eBPF 程序别离保护 socket map 和将音讯直通对端的 socket。这里感激 Idan Zach 的示例代码 ebpf-sockops,我将代码做了 简略的批改,让可读性更好一点。

原来代码用应用了 16777343 示意地址 127.0.0.14135 示意端口 10000,二者是网络 字节序列转换后的值。

socket map 保护:sockops

附加到 sock_ops 的程序:监控 socket 状态,当状态为 BPF_SOCK_OPS_PASSIVE_ESTABLISHED_CB 或者 BPF_SOCK_OPS_ACTIVE_ESTABLISHED_CB 时,应用辅助函数 bpf_sock_hash_update1 将 socket 作为 value 保留到 socket map 中,key 由本地地址 + 端口和远端地址 + 端口组成。

理论的解决中,须要对以后的 socket 信息进行查看,将指标地址和端口或者本地地址和端口是 127.0.0.110000 的 socket 保留在 socket map 中。

__section("sockops")
int bpf_sockmap(struct bpf_sock_ops *skops)
{
    __u32 family, op;

    family = skops->family;
    op = skops->op;

    //printk("<<< op %d, port = %d --> %d\n", op, skops->local_port, skops->remote_port);
    switch (op) {
        case BPF_SOCK_OPS_PASSIVE_ESTABLISHED_CB:
        case BPF_SOCK_OPS_ACTIVE_ESTABLISHED_CB:
        if (family == AF_INET6)
                        bpf_sock_ops_ipv6(skops);
                else if (family == AF_INET)
                        bpf_sock_ops_ipv4(skops);
                break;
        default:
                break;
        }
    return 0;
}

// 127.0.0.1
static const __u32 lo_ip = 127 + (1 << 24);

static inline void bpf_sock_ops_ipv4(struct bpf_sock_ops *skops)
{struct sock_key key = {};
    sk_extract4_key(skops, &key);
    if (key.dip4 == loopback_ip || key.sip4 == loopback_ip) {if (key.dport == bpf_htons(SERVER_PORT) || key.sport == bpf_htons(SERVER_PORT)) {int ret = sock_hash_update(skops, &sock_ops_map, &key, BPF_NOEXIST);
            printk("<<< ipv4 op = %d, port %d --> %d\n", skops->op, key.sport, key.dport);
            if (ret != 0)
                printk("*** FAILED %d ***\n", ret);
        }
    }
}

音讯直通:sk_msg

附加到 socket map 的程序:在每次发送音讯时触发该程序,应用以后 socket 的远端地址 + 端口和本地地址 + 端口作为 key 从 map 中定位对端的 socket。如果定位胜利,阐明客户端和服务端位于同一节点上,应用辅助函数 bpf_msg_redirect_hash2 将数据间接写入到对端 socket。

这里没有间接应用 bpf_msg_redirect_hash,而是通过自定义的 msg_redirect_hash 来拜访。因为前者无奈间接拜访,否则校验会不通过。

sockops 一样,音讯的重定向也是指针对指标地址和端口或者本地地址和端口是 127.0.0.110000 的音讯。

__section("sk_msg")
int bpf_redir(struct sk_msg_md *msg)
{
    __u64 flags = BPF_F_INGRESS;
    struct sock_key key = {};

    sk_msg_extract4_key(msg, &key);
    // See whether the source or destination IP is local host
    if (key.dip4 == loopback_ip || key.sip4 == loopback_ip) {
        // See whether the source or destination port is 10000
        if (key.dport == bpf_htons(SERVER_PORT) || key.sport == bpf_htons(SERVER_PORT)) {//int len1 = (__u64)msg->data_end - (__u64)msg->data;
                    //printk("<<< redir_proxy port %d --> %d (%d)\n", key.sport, key.dport, len1);
            msg_redirect_hash(msg, &sock_ops_map, &key, flags);
        }
    }

    return SK_PASS;
}

测试

环境

  • Ubuntu 20.04
  • Kernel 5.15.0-1034

装置依赖。

sudo apt update && sudo apt install make clang llvm gcc-multilib linux-tools-$(uname -r) linux-cloud-tools-$(uname -r) linux-tools-generic

克隆代码。

git clone https://github.com/addozhang/ebpf-sockops
cd ebpf-sockops

编译并加载 BPF 程序。

sudo ./load.sh

装置 iperf3

sudo apt install iperf3

启动 iperf3 服务端。

iperf3 -s -p 10000

运行 iperf3 客户端。

iperf3 -c 127.0.0.1 -t 10 -l 64k -p 10000

运行 trace.sh 脚本查看打印的日志,能够看到 4 条日志:创立了 2 个连贯。

./trace.sh

iperf3-7744    [001] d...1   838.985683: bpf_trace_printk: <<< ipv4 op = 4, port 45189 --> 4135
iperf3-7744    [001] d.s11   838.985733: bpf_trace_printk: <<< ipv4 op = 5, port 4135 --> 45189
iperf3-7744    [001] d...1   838.986033: bpf_trace_printk: <<< ipv4 op = 4, port 45701 --> 4135
iperf3-7744    [001] d.s11   838.986078: bpf_trace_printk: <<< ipv4 op = 5, port 4135 --> 45701

如何确定跳过了内核网络栈了,应用 tcpdump 抓包看一下。从抓包的后果来看,只有握手和回收的流量,后续音讯的发送齐全跳过了内核网络栈。

sudo tcpdump -i lo port 10000 -vvv
tcpdump: listening on lo, link-type EN10MB (Ethernet), capture size 262144 bytes
13:23:31.761317 IP (tos 0x0, ttl 64, id 50214, offset 0, flags [DF], proto TCP (6), length 60)
    localhost.34224 > localhost.webmin: Flags [S], cksum 0xfe30 (incorrect -> 0x5ca1), seq 2753408235, win 65495, options [mss 65495,sackOK,TS val 166914980 ecr 0,nop,wscale 7], length 0
13:23:31.761333 IP (tos 0x0, ttl 64, id 0, offset 0, flags [DF], proto TCP (6), length 60)
    localhost.webmin > localhost.34224: Flags [S.], cksum 0xfe30 (incorrect -> 0x169a), seq 3960628312, ack 2753408236, win 65483, options [mss 65495,sackOK,TS val 166914980 ecr 166914980,nop,wscale 7], length 0
13:23:31.761385 IP (tos 0x0, ttl 64, id 50215, offset 0, flags [DF], proto TCP (6), length 52)
    localhost.34224 > localhost.webmin: Flags [.], cksum 0xfe28 (incorrect -> 0x3d56), seq 1, ack 1, win 512, options [nop,nop,TS val 166914980 ecr 166914980], length 0
13:23:31.761678 IP (tos 0x0, ttl 64, id 59057, offset 0, flags [DF], proto TCP (6), length 60)
    localhost.34226 > localhost.webmin: Flags [S], cksum 0xfe30 (incorrect -> 0x4eb8), seq 3068504073, win 65495, options [mss 65495,sackOK,TS val 166914981 ecr 0,nop,wscale 7], length 0
13:23:31.761689 IP (tos 0x0, ttl 64, id 0, offset 0, flags [DF], proto TCP (6), length 60)
    localhost.webmin > localhost.34226: Flags [S.], cksum 0xfe30 (incorrect -> 0x195d), seq 874449823, ack 3068504074, win 65483, options [mss 65495,sackOK,TS val 166914981 ecr 166914981,nop,wscale 7], length 0
13:23:31.761734 IP (tos 0x0, ttl 64, id 59058, offset 0, flags [DF], proto TCP (6), length 52)
    localhost.34226 > localhost.webmin: Flags [.], cksum 0xfe28 (incorrect -> 0x4019), seq 1, ack 1, win 512, options [nop,nop,TS val 166914981 ecr 166914981], length 0
13:23:41.762819 IP (tos 0x0, ttl 64, id 43056, offset 0, flags [DF], proto TCP (6), length 52)                                    localhost.webmin > localhost.34226: Flags [F.], cksum 0xfe28 (incorrect -> 0x1907), seq 1, ack 1, win 512, options [nop,nop,TS val 166924982 ecr 166914981], length 0
13:23:41.763334 IP (tos 0x0, ttl 64, id 59059, offset 0, flags [DF], proto TCP (6), length 52)
    localhost.34226 > localhost.webmin: Flags [F.], cksum 0xfe28 (incorrect -> 0xf1f4), seq 1, ack 2, win 512, options [nop,nop,TS val 166924982 ecr 166924982], length 0
13:23:41.763348 IP (tos 0x0, ttl 64, id 43057, offset 0, flags [DF], proto TCP (6), length 52)
    localhost.webmin > localhost.34226: Flags [.], cksum 0xfe28 (incorrect -> 0xf1f4), seq 2, ack 2, win 512, options [nop,nop,TS val 166924982 ecr 166924982], length 0
13:23:41.763588 IP (tos 0x0, ttl 64, id 50216, offset 0, flags [DF], proto TCP (6), length 52)
    localhost.34224 > localhost.webmin: Flags [F.], cksum 0xfe28 (incorrect -> 0x1643), seq 1, ack 1, win 512, options [nop,nop,TS val 166924982 ecr 166914980], length 0
13:23:41.763940 IP (tos 0x0, ttl 64, id 14090, offset 0, flags [DF], proto TCP (6), length 52)
    localhost.webmin > localhost.34224: Flags [F.], cksum 0xfe28 (incorrect -> 0xef2e), seq 1, ack 2, win 512, options [nop,nop,TS val 166924983 ecr 166924982], length 0
13:23:41.763952 IP (tos 0x0, ttl 64, id 50217, offset 0, flags [DF], proto TCP (6), length 52)
    localhost.34224 > localhost.webmin: Flags [.], cksum 0xfe28 (incorrect -> 0xef2d), seq 2, ack 2, win 512, options [nop,nop,TS val 166924983 ecr 166924983], length 0

总结

通过 eBPF 的引入,咱们缩短了同节点通信数据包的 datapath,跳过了内核网络栈间接连贯两个对端的 socket。

这种设计实用于同 pod 两个利用的通信以及同节点上两个 pod 的通信。


  1. 该辅助函数将援用的 socket 增加或者更新到 sockethash map 中,程序的输出 bpf_sock_ops 作为键值对的值。详细信息可参考 https://man7.org/linux/man-pages/man7/bpf-helpers.7.html 中的 bpf_sock_hash_update。↩
  2. 该辅助函数将 msg 转发到 socket map 中 key 对应的 socket。↩
退出移动版