关于安全:eBPF代码流程分析

47次阅读

共计 7617 个字符,预计需要花费 20 分钟才能阅读完成。

0x1: 应用层流程

基于 Linux kernel source v5.13

1. 加载 bpf.o 文件并解决 elf section 信息

1.int bpf_object__open(char *path) // 参数是 bpf.o 文件门路
   -- __bpf_object__open(const char *path, const void *obj_buf, size_t obj_buf_sz, const struct bpf_object_open_opts *opts)// 读取 obj 文件,解析 elf 中 section 信息。--     obj = bpf_object__new(path, obj_buf, obj_buf_sz, obj_name);     // 创立并初始化 obj 构造体
              err = bpf_object__elf_init(obj); // 读取 elf 文件
                  err = err ? : bpf_object__check_endianness(obj); // 判断大小端
                  err = err ? : bpf_object__elf_collect(obj); // 读取 elf 节信息 (license / version / maps / .reloc / .text)
                  err = err ? : bpf_object__collect_externs(obj); // 读取 btf section
                  err = err ? : bpf_object__finalize_btf(obj);  // 读取须要 btf 解决的 data section
                  err = err ? : bpf_object__init_maps(obj, opts); // 读取 map 信息 (user map / global data map / btf map / kconfig map)
                  err = err ? : bpf_object__collect_relos(obj); // 读取重定位信息 

2. 加载 obj 文件到内核

2.int bpf_object__load(struct bpf_object *obj) // 加载第一步生成的 obj 构造体
  -- bpf_object__load_xattr(struct bpf_object_load_attr *attr) 
      --     err = bpf_object__probe_loading(obj);  // 加载 bpf prog 到内核(这里加载的是未通过批改的 bpf 代码)err = err ? : bpf_object__load_vmlinux_btf(obj, false); // 读取内核 vmlinux 信息
          err = err ? : bpf_object__resolve_externs(obj, obj->kconfig); // 读取内核 kconfig /vmlinux / kallsysm 信息
          err = err ? : bpf_object__sanitize_and_load_btf(obj); // BPF_BTF_LOAD 加载 btf 信息
          err = err ? : bpf_object__sanitize_maps(obj); // 判断内核反对的 map 品种
          err = err ? : bpf_object__init_kern_struct_ops_maps(obj);
          err = err ? : bpf_object__create_maps(obj); //BPF_MAP_CREATE 创立 map
          err = err ? : bpf_object__relocate(obj, attr->target_btf_path); // 解决 bpf 代码重定位信息
          err = err ? : bpf_object__load_progs(obj, attr->log_level); // 这里加载通过重定位 btf 批改的 bpf 代码 ****
             -- libbpf__bpf_prog_load(const struct bpf_prog_load_params *load_attr)
                 -- sys_bpf_prog_load(union bpf_attr *attr, unsigned int size) 
                    // 调用 sys_bpf(BPF_PROG_LOAD, attr, size) 实现 bpf prog 的加载

union bpf_attr attr;   是一个 union 构造,依据 bpf_type 的不同,产生不同的构造,具体能够在 kernel source/include/uapi/linux/bpf.h 中查看 

0x2: 内核流程

define __NR_bpf 321  // 调用号在 x64 下为 321
static inline int sys_bpf(enum bpf_cmd cmd, union bpf_attr *attr, unsigned int size)
{return syscall(__NR_bpf, cmd, attr, size);
}

sys_bpf()
    -- __SYS_CALL(_NR_bpf, cmd, attr, size)
        -- SYSCALL_DEFINE3(bpf, cmd, uattr, size) 

/kernel/bpf/syscall.c/
SYSCALL_DEFINE3(bpf, int, cmd, union bpf_attr __user *, uattr, unsigned int, size) {
// 这个函数就是内核解决应用层 bpf 相干操作的总入口,依据 cmd 参数的不同,产生不同构造的 struct bpf_attr
    ... ...
          copy_from_user(&attr, uattr, size); // 拷贝虚拟地址内容到内核中
    security_bpf(cmd, &attr, size); //LSM 框架反对 截止目前 v5.13,只实现了几个函数,和 selinux/appamor 相差甚远
    switch (cmd) {
    case BPF_MAP_CREATE:
    err = map_create(&attr); // 创立 map
    break;
    case BPF_PROG_LOAD:
    err = bpf_prog_load(&attr, uattr); // 加载 bpf 程序
    break;
    default:
    err = -EINVAL;
    break;
    }
      ... ...
} 

重点看看 bpf prog 加载流程,相熟 verfiy 机制和 jit 机制

static int bpf_prog_load(union bpf_attr *attr, union bpf_attr __user *uattr)
{
   ... ...
   license_is_gpl_compatible(license);  // 开源许可证判断
   if (is_net_admin_prog_type(type) && !capable(CAP_NET_ADMIN) && !capable(CAP_SYS_ADMIN)) // 如果是 net 相干类型,判断所需权限是否满足
   if (is_perfmon_prog_type(type) && !perfmon_capable()) // 判断是追踪相干类型,判断所需权限是否满足
   bpf_prog_alloc(bpf_prog_size(attr->insn_cnt), GFP_USER); // 给 struct bpf_prog 申请内存,该构造是 bpf 在内核中的实例
   copy_from_user(prog->insns, u64_to_user_ptr(attr->insns),bpf_prog_insn_size(prog)) // 拷贝 bpf 字节码到内核
   bpf_check(&prog, attr, uattr); //bpf verify 机制外围
             -- 1. 调用 replace_map_fd_with_map_ptr 将 eBPF 汇编中的 fd 替换为对应的 map 构造体地址。-- 2.check_subprogs 查看所有条件跳转指令都位于相应 subprog 内(本 eBPF 函数内)-- 3.check_cfg 采纳深度优先算法确保函数分支不存在循环和存在执行不到的指令。-- 4.do_check 函数查看寄存器和参数的合法性。-- 5. 调用 fix_call_args 函数对多 bpf 函数的 prog 进行 jit (多 sub prog 在这里 jit,单 prog 的在上面 bpf_prog_select_runtime 进行 jit)
   bpf_prog_select_runtime(prog, &err); //bpf jit 机制外围, 将 bpf 字节码编译为指标平台汇编代码
   bpf_audit_prog(prog, BPF_AUDIT_LOAD); // 打印一条 prog load 的 audit 信息
   perf_event_bpf_event(prog, PERF_BPF_EVENT_PROG_LOAD, 0); // 通过 perf 机制加载到对应的 hook api 中
   err = bpf_prog_new_fd(prog);// 返回给应用层 bpf prog 的 fd 信息,后续应用层用该 fd 进行操作 (具体能够看 libbpf 如何通过 fd 操作 map)
   ... ...
  }
 struct bpf_prog {
     u16         pages;      /* 调配 page 数 */
     u16         jited:1,    /* prog 是否曾经 jit 过 */
                 jit_requested:1,/* 是否须要 jit */
                 undo_set_mem:1, /* Passed set_memory_ro() checkpoint */
                 gpl_compatible:1, /* Is filter GPL compatible? */
                 cb_access:1,    /* Is control block accessed? */
                 dst_needed:1,   /* Do we need dst entry? */
                 blinded:1,  /* 常量致盲 */
                 is_func:1,  /* eBPF func? 大多数状况是 */
                 kprobe_override:1, /* 是否是 overrided kprobe */
                 has_callchain_buf:1; /* callchain buffer allocated? */
     enum bpf_prog_type  type;       /* prog 类型,eg kprobe、tracepoint*/
     enum bpf_attach_type    expected_attach_type; /* For some prog types */
     u32         len;        /* eBPF 指令个数 */
     u32         jited_len;  /* eBPF 汇编指令代码总长度 */
     u8          tag[BPF_TAG_SIZE];
     struct bpf_prog_aux *aux;       /* Auxiliary fields */
     struct sock_fprog_kern  *orig_prog; /* Original BPF program */
     unsigned int        (*bpf_func)(const void *ctx,
                         const struct bpf_insn *insn);/* 寄存 jit 后的可执行汇编 */
     /* 不反对 jit, 须要模仿,x64 反对 jit, 不须要模仿 */
     union {struct sock_filter  insns[0]; /* 从用户态拷贝来的 eBPF 原程序 */
         struct bpf_insn     insnsi[0];
     };
 };
 第一参数 cmd

 enum bpf_cmd {
    BPF_MAP_CREATE,   // 前五个是操作 Map 的
    BPF_MAP_LOOKUP_ELEM,
    BPF_MAP_UPDATE_ELEM,
    BPF_MAP_DELETE_ELEM,
    BPF_MAP_GET_NEXT_KEY,
    BPF_PROG_LOAD, //eBPF 字节码加载
    BPF_OBJ_PIN,
    BPF_OBJ_GET,
    BPF_PROG_ATTACH,
    BPF_PROG_DETACH,
    BPF_PROG_TEST_RUN,
    BPF_PROG_GET_NEXT_ID,
    BPF_MAP_GET_NEXT_ID,
    BPF_PROG_GET_FD_BY_ID,
    BPF_MAP_GET_FD_BY_ID,
    BPF_OBJ_GET_INFO_BY_FD,
    BPF_PROG_QUERY,
    BPF_RAW_TRACEPOINT_OPEN,
    BPF_BTF_LOAD, // 加载 btf 信息
    BPF_BTF_GET_FD_BY_ID,
    BPF_TASK_FD_QUERY,
    BPF_MAP_LOOKUP_AND_DELETE_ELEM,
    BPF_MAP_FREEZE,
    BPF_BTF_GET_NEXT_ID,
    BPF_MAP_LOOKUP_BATCH,
    BPF_MAP_LOOKUP_AND_DELETE_BATCH,
    BPF_MAP_UPDATE_BATCH,
    BPF_MAP_DELETE_BATCH,
    BPF_LINK_CREATE,
    BPF_LINK_UPDATE,
    BPF_LINK_GET_FD_BY_ID,
    BPF_LINK_GET_NEXT_ID,
    BPF_ENABLE_STATS,
    BPF_ITER_CREATE,
};
BPF MAP 类型

enum bpf_map_type {
    BPF_MAP_TYPE_UNSPEC = 0,
    BPF_MAP_TYPE_HASH = 1, // 哈希表
    BPF_MAP_TYPE_ARRAY = 2, // 数组映射,已针对疾速查找速度进行了优化,通常用于计数器
    BPF_MAP_TYPE_PROG_ARRAY = 3, // 对应 eBPF 程序的文件描述符数组;用于实现跳转表和子程序以解决特定的数据包协定
    BPF_MAP_TYPE_PERF_EVENT_ARRAY = 4, // linux kernel 4.4 存储指向 struct perf_event 的指针,用于读取和存储 perf 事件计数器
    BPF_MAP_TYPE_PERCPU_HASH = 5, // 每个 CPU 的哈希表
    BPF_MAP_TYPE_PERCPU_ARRAY = 6, // 每个 CPU 的数组
    BPF_MAP_TYPE_STACK_TRACE = 7, // 存储堆栈跟踪
    BPF_MAP_TYPE_CGROUP_ARRAY = 8, // 存储指向控制组的指针
    BPF_MAP_TYPE_LRU_HASH = 9, // 仅保留最近应用我的项目的哈希表
    BPF_MAP_TYPE_LRU_PERCPU_HASH = 10, // 每个 CPU 的哈希表,仅保留最近应用的我的项目
    BPF_MAP_TYPE_LPM_TRIE = 11, // 最长前缀匹配树,实用于将 IP 地址匹配到某个范畴
    BPF_MAP_TYPE_ARRAY_OF_MAPS = 12,
    BPF_MAP_TYPE_HASH_OF_MAPS = 13,
    BPF_MAP_TYPE_DEVMAP = 14, // 用于存储和查找网络设备援用
    BPF_MAP_TYPE_SOCKMAP = 15, // 存储和查找套接字,并容许应用 BPF 辅助函数进行套接字重定向
    BPF_MAP_TYPE_CPUMAP = 16,
    BPF_MAP_TYPE_XSKMAP = 17,
    BPF_MAP_TYPE_SOCKHASH = 18,
    BPF_MAP_TYPE_CGROUP_STORAGE = 19,
    BPF_MAP_TYPE_REUSEPORT_SOCKARRAY = 20,
    BPF_MAP_TYPE_PERCPU_CGROUP_STORAGE = 21,
    BPF_MAP_TYPE_QUEUE = 22,
    BPF_MAP_TYPE_STACK = 23,
    BPF_MAP_TYPE_SK_STORAGE = 24,
    BPF_MAP_TYPE_DEVMAP_HASH = 25,
    BPF_MAP_TYPE_STRUCT_OPS = 26,
    BPF_MAP_TYPE_RINGBUF = 27, // linux kernel 5.8 Perf Buffer 增强版
    BPF_MAP_TYPE_INODE_STORAGE = 28,
};

具体介绍:BFP MAP 介绍

BPF PROG 类型【helper 函数应用范畴】不同类型 eBPF 程序能够应用的 eBPF helper 函数范畴

enum bpf_prog_type {
    BPF_PROG_TYPE_UNSPEC,
    BPF_PROG_TYPE_SOCKET_FILTER, // 网络数据包过滤器
    BPF_PROG_TYPE_KPROBE, // 确定是否应触发 kprobe
    BPF_PROG_TYPE_SCHED_CLS, // 网络流量管制分类器
    BPF_PROG_TYPE_SCHED_ACT, // 网络流量管制操作
    BPF_PROG_TYPE_TRACEPOINT, // 确定是否应触发跟踪点
    BPF_PROG_TYPE_XDP, // 从设施驱动程序接管门路运行的网络数据包筛选器
    BPF_PROG_TYPE_PERF_EVENT, // 确定是否应该触发性能事件处理程序
    BPF_PROG_TYPE_CGROUP_SKB, // 用于控制组的网络数据包过滤器
    BPF_PROG_TYPE_CGROUP_SOCK, // 用于控制组的网络数据包筛选器,容许批改套接字选项
    BPF_PROG_TYPE_LWT_IN,
    BPF_PROG_TYPE_LWT_OUT,
    BPF_PROG_TYPE_LWT_XMIT,
    BPF_PROG_TYPE_SOCK_OPS,
    BPF_PROG_TYPE_SK_SKB,
    BPF_PROG_TYPE_CGROUP_DEVICE,
    BPF_PROG_TYPE_SK_MSG,
    BPF_PROG_TYPE_RAW_TRACEPOINT,
    BPF_PROG_TYPE_CGROUP_SOCK_ADDR,
    BPF_PROG_TYPE_LWT_SEG6LOCAL,
    BPF_PROG_TYPE_LIRC_MODE2,
    BPF_PROG_TYPE_SK_REUSEPORT,
    BPF_PROG_TYPE_FLOW_DISSECTOR,
    BPF_PROG_TYPE_CGROUP_SYSCTL,
    BPF_PROG_TYPE_RAW_TRACEPOINT_WRITABLE,
    BPF_PROG_TYPE_CGROUP_SOCKOPT,
    BPF_PROG_TYPE_TRACING,
    BPF_PROG_TYPE_STRUCT_OPS,
    BPF_PROG_TYPE_EXT,
    BPF_PROG_TYPE_LSM,
};

0x3:BPF 寄存器

eBPF 从 bpf 的两个 32 位寄存器扩大到 10 个 64 位寄存器 R0~R9 和一个只读栈帧寄存器,并反对 call 指令,更加贴近古代 64 位处理器硬件

R0 对应 rax,函数返回值
R1 对应 rdi,函数参数 1
R2 对应 rsi,函数参数 2
R3 对应 rdx,函数参数 3
R4 对应 rcx,函数参数 4
R5 对应 r8,函数参数 5
R6 对应 rbx,callee 保留
R7 对应 r13,callee 保留
R8 对应 r14,callee 保留
R9 对应 r15,callee 保留
R10 对应 rbp,只读栈帧寄存器 

0x4: 内核门路

/Documentation/bpf/btf.rst

/include/uapi/linux/bpf_common.h 和 /include/uapi/linux/bpf.h 定义了指令集

/samples/bpf  相干的样例

/tools/bpf/bpftool 工具,用来调试 bpf

/tools/testing/selftests/bpf 测试代码 

本文由博客一文多发平台 OpenWrite 公布!

正文完
 0