0x1:应用层流程

基于Linux kernel source v5.13

1.加载bpf.o文件并解决elf section信息

1.int bpf_object__open(char *path) //参数是bpf.o文件门路   -- __bpf_object__open(const char *path, const void *obj_buf, size_t obj_buf_sz, const struct bpf_object_open_opts *opts)//读取obj文件，解析elf中section信息。        --     obj = bpf_object__new(path, obj_buf, obj_buf_sz, obj_name);     //创立并初始化obj构造体              err = bpf_object__elf_init(obj); //读取elf文件                  err = err ? : bpf_object__check_endianness(obj); //判断大小端                  err = err ? : bpf_object__elf_collect(obj); //读取elf节信息(license / version / maps / .reloc / .text)                  err = err ? : bpf_object__collect_externs(obj); //读取btf section                  err = err ? : bpf_object__finalize_btf(obj);  //读取须要 btf解决的data section                  err = err ? : bpf_object__init_maps(obj, opts); //读取map信息(user map / global data map / btf map / kconfig map)                  err = err ? : bpf_object__collect_relos(obj); //读取重定位信息

2.加载obj文件到内核

2.int bpf_object__load(struct bpf_object *obj) //加载第一步生成的obj构造体  -- bpf_object__load_xattr(struct bpf_object_load_attr *attr)       --     err = bpf_object__probe_loading(obj);  //加载bpf prog到内核（这里加载的是未通过批改的bpf代码）          err = err ? : bpf_object__load_vmlinux_btf(obj, false); //读取内核vmlinux信息          err = err ? : bpf_object__resolve_externs(obj, obj->kconfig); //读取内核kconfig /vmlinux / kallsysm信息          err = err ? : bpf_object__sanitize_and_load_btf(obj); // BPF_BTF_LOAD 加载btf信息          err = err ? : bpf_object__sanitize_maps(obj); // 判断内核反对的map品种          err = err ? : bpf_object__init_kern_struct_ops_maps(obj);          err = err ? : bpf_object__create_maps(obj); //BPF_MAP_CREATE 创立map          err = err ? : bpf_object__relocate(obj, attr->target_btf_path); //解决bpf代码重定位信息          err = err ? : bpf_object__load_progs(obj, attr->log_level); //这里加载通过重定位 btf批改的bpf代码 ****             -- libbpf__bpf_prog_load(const struct bpf_prog_load_params *load_attr)                 -- sys_bpf_prog_load(union bpf_attr *attr, unsigned int size)                     //调用sys_bpf(BPF_PROG_LOAD, attr, size) 实现bpf prog的加载union bpf_attr attr;   是一个union构造，依据bpf_type的不同，产生不同的构造，具体能够在kernel source/include/uapi/linux/bpf.h中查看

0x2:内核流程

define __NR_bpf 321  //调用号在x64下为321static inline int sys_bpf(enum bpf_cmd cmd, union bpf_attr *attr, unsigned int size){return syscall(__NR_bpf, cmd, attr, size);}sys_bpf()    -- __SYS_CALL(_NR_bpf, cmd, attr, size)        -- SYSCALL_DEFINE3(bpf, cmd, uattr, size) /kernel/bpf/syscall.c/SYSCALL_DEFINE3(bpf, int, cmd, union bpf_attr __user *, uattr, unsigned int, size) {//这个函数就是内核解决应用层bpf相干操作的总入口，依据cmd参数的不同，产生不同构造的struct bpf_attr    ... ...          copy_from_user(&attr, uattr, size); //拷贝虚拟地址内容到内核中    security_bpf(cmd, &attr, size); //LSM 框架反对 截止目前v5.13，只实现了几个函数，和selinux/appamor相差甚远    switch (cmd) {    case BPF_MAP_CREATE:    err = map_create(&attr); //创立map    break;    case BPF_PROG_LOAD:    err = bpf_prog_load(&attr, uattr); //加载bpf程序    break;    default:    err = -EINVAL;    break;    }      ... ...}

重点看看bpf prog加载流程，相熟verfiy机制和jit机制

static int bpf_prog_load(union bpf_attr *attr, union bpf_attr __user *uattr){   ... ...   license_is_gpl_compatible(license);  // 开源许可证判断   if (is_net_admin_prog_type(type) && !capable(CAP_NET_ADMIN) && !capable(CAP_SYS_ADMIN)) //如果是net相干类型，判断所需权限是否满足   if (is_perfmon_prog_type(type) && !perfmon_capable()) //判断是追踪相干类型，判断所需权限是否满足   bpf_prog_alloc(bpf_prog_size(attr->insn_cnt), GFP_USER); //给 struct bpf_prog 申请内存，该构造是bpf在内核中的实例   copy_from_user(prog->insns, u64_to_user_ptr(attr->insns),bpf_prog_insn_size(prog)) //拷贝bpf字节码到内核   bpf_check(&prog, attr, uattr); //bpf verify机制外围             -- 1.调用replace_map_fd_with_map_ptr将eBPF汇编中的fd替换为对应的map构造体地址。        -- 2.check_subprogs查看所有条件跳转指令都位于相应subprog内（本eBPF函数内）        -- 3.check_cfg采纳深度优先算法确保函数分支不存在循环和存在执行不到的指令。        -- 4.do_check函数查看寄存器和参数的合法性。        -- 5.调用fix_call_args函数对多bpf函数的prog进行jit (多sub prog在这里jit，单prog的在上面bpf_prog_select_runtime进行jit)   bpf_prog_select_runtime(prog, &err); //bpf jit机制外围,将bpf字节码编译为指标平台汇编代码   bpf_audit_prog(prog, BPF_AUDIT_LOAD); //打印一条prog load 的 audit信息   perf_event_bpf_event(prog, PERF_BPF_EVENT_PROG_LOAD, 0); //通过perf机制加载到对应的hook api中   err = bpf_prog_new_fd(prog);//返回给应用层bpf prog的fd信息，后续应用层用该fd进行操作(具体能够看libbpf如何通过fd操作map)   ... ...  }

 struct bpf_prog {     u16         pages;      /* 调配page数 */     u16         jited:1,    /* prog是否曾经jit过*/                 jit_requested:1,/* 是否须要jit */                 undo_set_mem:1, /* Passed set_memory_ro() checkpoint */                 gpl_compatible:1, /* Is filter GPL compatible? */                 cb_access:1,    /* Is control block accessed? */                 dst_needed:1,   /* Do we need dst entry? */                 blinded:1,  /* 常量致盲 */                 is_func:1,  /* eBPF func? 大多数状况是 */                 kprobe_override:1, /* 是否是overrided kprobe */                 has_callchain_buf:1; /* callchain buffer allocated? */     enum bpf_prog_type  type;       /* prog类型,eg kprobe 、tracepoint*/     enum bpf_attach_type    expected_attach_type; /* For some prog types */     u32         len;        /* eBPF指令个数 */     u32         jited_len;  /* eBPF汇编指令代码总长度 */     u8          tag[BPF_TAG_SIZE];     struct bpf_prog_aux *aux;       /* Auxiliary fields */     struct sock_fprog_kern  *orig_prog; /* Original BPF program */     unsigned int        (*bpf_func)(const void *ctx,                         const struct bpf_insn *insn);/* 寄存jit后的可执行汇编 */     /* 不反对jit,须要模仿，x64反对jit,不须要模仿 */     union {          struct sock_filter  insns[0]; /* 从用户态拷贝来的eBPF原程序 */         struct bpf_insn     insnsi[0];     }; };

第一参数cmd enum bpf_cmd {    BPF_MAP_CREATE,   //前五个是操作Map的    BPF_MAP_LOOKUP_ELEM,    BPF_MAP_UPDATE_ELEM,    BPF_MAP_DELETE_ELEM,    BPF_MAP_GET_NEXT_KEY,    BPF_PROG_LOAD, //eBPF字节码加载    BPF_OBJ_PIN,    BPF_OBJ_GET,    BPF_PROG_ATTACH,    BPF_PROG_DETACH,    BPF_PROG_TEST_RUN,    BPF_PROG_GET_NEXT_ID,    BPF_MAP_GET_NEXT_ID,    BPF_PROG_GET_FD_BY_ID,    BPF_MAP_GET_FD_BY_ID,    BPF_OBJ_GET_INFO_BY_FD,    BPF_PROG_QUERY,    BPF_RAW_TRACEPOINT_OPEN,    BPF_BTF_LOAD, //加载btf信息    BPF_BTF_GET_FD_BY_ID,    BPF_TASK_FD_QUERY,    BPF_MAP_LOOKUP_AND_DELETE_ELEM,    BPF_MAP_FREEZE,    BPF_BTF_GET_NEXT_ID,    BPF_MAP_LOOKUP_BATCH,    BPF_MAP_LOOKUP_AND_DELETE_BATCH,    BPF_MAP_UPDATE_BATCH,    BPF_MAP_DELETE_BATCH,    BPF_LINK_CREATE,    BPF_LINK_UPDATE,    BPF_LINK_GET_FD_BY_ID,    BPF_LINK_GET_NEXT_ID,    BPF_ENABLE_STATS,    BPF_ITER_CREATE,};

BPF MAP 类型enum bpf_map_type {    BPF_MAP_TYPE_UNSPEC = 0,    BPF_MAP_TYPE_HASH = 1, //哈希表    BPF_MAP_TYPE_ARRAY = 2, //数组映射，已针对疾速查找速度进行了优化，通常用于计数器    BPF_MAP_TYPE_PROG_ARRAY = 3, //对应eBPF程序的文件描述符数组；用于实现跳转表和子程序以解决特定的数据包协定    BPF_MAP_TYPE_PERF_EVENT_ARRAY = 4, // linux kernel 4.4 存储指向struct perf_event的指针，用于读取和存储perf事件计数器    BPF_MAP_TYPE_PERCPU_HASH = 5, //每个CPU的哈希表    BPF_MAP_TYPE_PERCPU_ARRAY = 6, //每个CPU的数组    BPF_MAP_TYPE_STACK_TRACE = 7, //存储堆栈跟踪    BPF_MAP_TYPE_CGROUP_ARRAY = 8, //存储指向控制组的指针    BPF_MAP_TYPE_LRU_HASH = 9, //仅保留最近应用我的项目的哈希表    BPF_MAP_TYPE_LRU_PERCPU_HASH = 10, //每个CPU的哈希表，仅保留最近应用的我的项目    BPF_MAP_TYPE_LPM_TRIE = 11, //最长前缀匹配树，实用于将IP地址匹配到某个范畴    BPF_MAP_TYPE_ARRAY_OF_MAPS = 12,    BPF_MAP_TYPE_HASH_OF_MAPS = 13,    BPF_MAP_TYPE_DEVMAP = 14, //用于存储和查找网络设备援用    BPF_MAP_TYPE_SOCKMAP = 15, //存储和查找套接字，并容许应用BPF辅助函数进行套接字重定向    BPF_MAP_TYPE_CPUMAP = 16,    BPF_MAP_TYPE_XSKMAP = 17,    BPF_MAP_TYPE_SOCKHASH = 18,    BPF_MAP_TYPE_CGROUP_STORAGE = 19,    BPF_MAP_TYPE_REUSEPORT_SOCKARRAY = 20,    BPF_MAP_TYPE_PERCPU_CGROUP_STORAGE = 21,    BPF_MAP_TYPE_QUEUE = 22,    BPF_MAP_TYPE_STACK = 23,    BPF_MAP_TYPE_SK_STORAGE = 24,    BPF_MAP_TYPE_DEVMAP_HASH = 25,    BPF_MAP_TYPE_STRUCT_OPS = 26,    BPF_MAP_TYPE_RINGBUF = 27, // linux kernel 5.8 Perf Buffer增强版    BPF_MAP_TYPE_INODE_STORAGE = 28,};

具体介绍： BFP MAP介绍

BPF PROG 类型【helper函数应用范畴】不同类型eBPF程序能够应用的eBPF helper函数范畴enum bpf_prog_type {    BPF_PROG_TYPE_UNSPEC,    BPF_PROG_TYPE_SOCKET_FILTER, //网络数据包过滤器    BPF_PROG_TYPE_KPROBE, //确定是否应触发kprobe    BPF_PROG_TYPE_SCHED_CLS, //网络流量管制分类器    BPF_PROG_TYPE_SCHED_ACT, //网络流量管制操作    BPF_PROG_TYPE_TRACEPOINT, //确定是否应触发跟踪点    BPF_PROG_TYPE_XDP, //从设施驱动程序接管门路运行的网络数据包筛选器    BPF_PROG_TYPE_PERF_EVENT, //确定是否应该触发性能事件处理程序    BPF_PROG_TYPE_CGROUP_SKB, //用于控制组的网络数据包过滤器    BPF_PROG_TYPE_CGROUP_SOCK, //用于控制组的网络数据包筛选器，容许批改套接字选项    BPF_PROG_TYPE_LWT_IN,    BPF_PROG_TYPE_LWT_OUT,    BPF_PROG_TYPE_LWT_XMIT,    BPF_PROG_TYPE_SOCK_OPS,    BPF_PROG_TYPE_SK_SKB,    BPF_PROG_TYPE_CGROUP_DEVICE,    BPF_PROG_TYPE_SK_MSG,    BPF_PROG_TYPE_RAW_TRACEPOINT,    BPF_PROG_TYPE_CGROUP_SOCK_ADDR,    BPF_PROG_TYPE_LWT_SEG6LOCAL,    BPF_PROG_TYPE_LIRC_MODE2,    BPF_PROG_TYPE_SK_REUSEPORT,    BPF_PROG_TYPE_FLOW_DISSECTOR,    BPF_PROG_TYPE_CGROUP_SYSCTL,    BPF_PROG_TYPE_RAW_TRACEPOINT_WRITABLE,    BPF_PROG_TYPE_CGROUP_SOCKOPT,    BPF_PROG_TYPE_TRACING,    BPF_PROG_TYPE_STRUCT_OPS,    BPF_PROG_TYPE_EXT,    BPF_PROG_TYPE_LSM,};

0x3:BPF寄存器

eBPF从bpf的两个32位寄存器扩大到10个64位寄存器R0~R9和一个只读栈帧寄存器，并反对call指令，更加贴近古代64位处理器硬件

R0对应rax， 函数返回值R1对应rdi， 函数参数1R2对应rsi， 函数参数2R3对应rdx， 函数参数3R4对应rcx， 函数参数4R5对应r8， 函数参数5R6对应rbx， callee保留R7对应r13， callee保留R8对应r14， callee保留R9对应r15， callee保留R10对应rbp，只读栈帧寄存器

0x4:内核门路

/Documentation/bpf/btf.rst/include/uapi/linux/bpf_common.h 和 /include/uapi/linux/bpf.h 定义了指令集/samples/bpf  相干的样例/tools/bpf/bpftool 工具，用来调试bpf/tools/testing/selftests/bpf 测试代码

本文由博客一文多发平台 OpenWrite 公布！