关于c++:如果你之前还没听过DPDK那我宣布你现在已经掌握了

一、网络IO的处境和趋势

从咱们用户的应用就能够感触到网速始终在晋升，而网络技术的倒退也从1GE/10GE/25GE/40GE/100GE的演变，从中能够得出单机的网络IO能力必须跟上时代的倒退。

1. 传统的电信畛域

IP层及以下，例如路由器、交换机、防火墙、基站等设施都是采纳硬件解决方案。基于专用网络处理器（NP），有基于FPGA，更有基于ASIC的。然而基于硬件的劣势非常明显，产生Bug不易修复，不易调试保护，并且网络技术始终在倒退，例如2G/3G/4G/5G等挪动技术的变革，这些属于业务的逻辑基于硬件实现太苦楚，不能疾速迭代。传统畛域面临的挑战是急需一套软件架构的高性能网络IO开发框架。

2. 云的倒退

公有云的呈现通过网络性能虚拟化（NFV）共享硬件成为趋势，NFV的定义是通过规范的服务器、规范交换机实现各种传统的或新的网络性能。急需一套基于罕用零碎和规范服务器的高性能网络IO开发框架。

3. 单机性能的飙升

网卡从1G到100G的倒退，CPU从单核到多核到多CPU的倒退，服务器的单机能力通过横行扩大达到新的高点。然而软件开发却无奈跟上节奏，单机解决能力没能和硬件门当户对，如何开发出与时并进高吞吐量的服务，单机百万千万并发能力。即便有业务对QPS要求不高，次要是CPU密集型，然而当初大数据分析、人工智能等利用都须要在分布式服务器之间传输大量数据实现作业。这点应该是咱们互联网后盾开发最应关注，也最关联的。

想理解更多的小伙伴欢送进群973961276来一起交流学习，更有海量学习材料跟大厂面试教训分享。

二、Linux + x86网络IO瓶颈

在数年前已经写过《网卡工作原理及高并发下的调优》一文，形容了Linux的收发报文流程。依据教训，在C1（8核）上跑利用每1W包解决须要耗费1%软中断CPU，这意味着单机的下限是100万PPS（Packet Per Second）。从TGW（Netfilter版）的性能100万PPS，AliLVS优化了也只到150万PPS，并且他们应用的服务器的配置还是比拟好的。假如，咱们要跑满10GE网卡，每个包64字节，这就须要2000万PPS（注：以太网万兆网卡速度下限是1488万PPS，因为最小帧大小为84B《Bandwidth, Packets Per Second, and Other Network Performance Metrics》），100G是2亿PPS，即每个包的解决耗时不能超过50纳秒。而一次Cache Miss，不论是TLB、数据Cache、指令Cache产生Miss，回内存读取大概65纳秒，NUMA体系下跨Node通信大概40纳秒。所以，即便不加上业务逻辑，即便纯收发包都如此艰巨。咱们要管制Cache的命中率，咱们要理解计算机体系结构，不能产生跨Node通信。

从这些数据，我心愿能够间接感受一下这里的挑战有多大，现实和事实，咱们须要从中均衡。问题都有这些

1.传统的收发报文形式都必须采纳硬中断来做通信，每次硬中断大概耗费100微秒，这还不算因为终止上下文所带来的Cache Miss。

2.数据必须从内核态用户态之间切换拷贝带来大量CPU耗费，全局锁竞争。

3.收发包都有零碎调用的开销。

4.内核工作在多核上，为可全局统一，即便采纳Lock Free，也防止不了锁总线、内存屏障带来的性能损耗。

5.从网卡到业务过程，通过的门路太长，有些其实未必要的，例如netfilter框架，这些都带来肯定的耗费，而且容易Cache Miss。

三、DPDK的基本原理

从后面的剖析能够得悉IO实现的形式、内核的瓶颈，以及数据流过内核存在不可控因素，这些都是在内核中实现，内核是导致瓶颈的起因所在，要解决问题须要绕过内核。所以支流解决方案都是旁路网卡IO，绕过内核间接在用户态收发包来解决内核的瓶颈。

Linux社区也提供了旁路机制Netmap，官网数据10G网卡1400万PPS，然而Netmap没宽泛应用。其起因有几个：

1.Netmap须要驱动的反对，即须要网卡厂商认可这个计划。

2.Netmap依然依赖中断告诉机制，没齐全解决瓶颈。

3.Netmap更像是几个零碎调用，实现用户态间接收发包，性能太过原始，没造成依赖的网络开发框架，社区不欠缺。

那么，咱们来看看倒退了十几年的DPDK，从Intel主导开发，到华为、思科、AWS等大厂商的退出，外围玩家都在该圈子里，领有欠缺的社区，生态造成闭环。晚期，次要是传统电信畛域3层以下的利用，如华为、中国电信、中国移动都是其晚期使用者，交换机、路由器、网关是次要利用场景。然而，随着下层业务的需要以及DPDK的欠缺，在更高的利用也在逐渐呈现。

DPDK旁路原理：

图片引自Jingjing Wu的文档《Flow Bifurcation on Intel® Ethernet Controller X710/XL710》

右边是原来的形式数据从网卡 -> 驱动 -> 协定栈 -> Socket接口 -> 业务

左边是DPDK的形式，基于UIO（Userspace I/O）旁路数据。数据从网卡 -> DPDK轮询模式-> DPDK根底库 -> 业务

用户态的益处是易用开发和保护，灵活性好。并且Crash也不影响内核运行，鲁棒性强。

DPDK反对的CPU体系架构：x86、ARM、PowerPC（PPC）

DPDK反对的网卡列表：https://core.dpdk.org/supported/，咱们支流应用Intel 82599（光口）、Intel x540（电口）

四、DPDK的基石UIO

为了让驱动运行在用户态，Linux提供UIO机制。应用UIO能够通过read感知中断，通过mmap实现和网卡的通信。

UIO原理：

要开发用户态驱动有几个步骤：

1.开发运行在内核的UIO模块，因为硬中断只能在内核解决

2.通过/dev/uioX读取中断

3.通过mmap和外设共享内存

五、DPDK外围优化：PMD

DPDK的UIO驱动屏蔽了硬件收回中断，而后在用户态采纳被动轮询的形式，这种模式被称为PMD（Poll Mode Driver）。

UIO旁路了内核，被动轮询去掉硬中断，DPDK从而能够在用户态做收发包解决。带来Zero Copy、无零碎调用的益处，同步解决缩小上下文切换带来的Cache Miss。

运行在PMD的Core会处于用户态CPU100%的状态

网络闲暇时CPU长期空转，会带来能耗问题。所以，DPDK推出Interrupt DPDK模式。

Interrupt DPDK：

图片引自David Su/Yunhong Jiang/Wei Wang的文档《Towards Low Latency Interrupt Mode DPDK》

它的原理和NAPI很像，就是没包可解决时进入睡眠，改为中断告诉。并且能够和其余过程共享同个CPU Core，然而DPDK过程会有更高调度优先级。

六、DPDK的高性能代码实现

1. 采纳HugePage缩小TLB Miss

默认下Linux采纳4KB为一页，页越小内存越大，页表的开销越大，页表的内存占用也越大。CPU有TLB（Translation Lookaside Buffer）老本高所以个别就只能寄存几百到上千个页表项。如果过程要应用64G内存，则64G/4KB=16000000（一千六百万）页，每页在页表项中占用16000000 * 4B=62MB。如果用HugePage采纳2MB作为一页，只需64G/2MB=2000，数量不在同个级别。

而DPDK采纳HugePage，在x86-64下反对2MB、1GB的页大小，几何级的升高了页表项的大小，从而缩小TLB-Miss。并提供了内存池（Mempool）、MBuf、无锁环（Ring）、Bitmap等根底库。依据咱们的实际，在数据立体（Data Plane）频繁的内存调配开释，必须应用内存池，不能间接应用rte_malloc，DPDK的内存调配实现十分简陋，不如ptmalloc。

2. SNA（Shared-nothing Architecture）

软件架构去中心化，尽量避免全局共享，带来全局竞争，失去横向扩大的能力。NUMA体系下不跨Node近程应用内存。

3. SIMD（Single Instruction Multiple Data）

从最早的mmx/sse到最新的avx2，SIMD的能力始终在加强。DPDK采纳批量同时解决多个包，再用向量编程，一个周期内对所有包进行解决。比方，memcpy就应用SIMD来进步速度。

SIMD在游戏后盾比拟常见，然而其余业务如果有相似批量解决的场景，要进步性能，也可看看是否满足。

4. 不应用慢速API

这里须要从新定义一下慢速API，比如说gettimeofday，尽管在64位下通过vDSO曾经不须要陷入内核态，只是一个纯内存拜访，每秒也能达到几千万的级别。然而，不要遗记了咱们在10GE下，每秒的解决能力就要达到几千万。所以即便是gettimeofday也属于慢速API。DPDK提供Cycles接口，例如rte_get_tsc_cycles接口，基于HPET或TSC实现。

在x86-64下应用RDTSC指令，间接从寄存器读取，须要输出2个参数，比拟常见的实现：

static inline uint64_t
rte_rdtsc(void)
{
      uint32_t lo, hi;

      __asm__ __volatile__ (
                 "rdtsc" : "=a"(lo), "=d"(hi)
                 );

      return ((unsigned long long)lo) | (((unsigned long long)hi) << 32);
}

这么写逻辑没错，然而还不够极致，还波及到2次位运算能力失去后果，咱们看看DPDK是怎么实现：

static inline uint64_t
rte_rdtsc(void)
{
    union {
        uint64_t tsc_64;
        struct {
            uint32_t lo_32;
            uint32_t hi_32;
        };
    } tsc;

    asm volatile("rdtsc" :
             "=a" (tsc.lo_32),
             "=d" (tsc.hi_32));
    return tsc.tsc_64;
}

奇妙的利用C的union共享内存，间接赋值，缩小了不必要的运算。然而应用tsc有些问题须要面对和解决

CPU亲和性，解决多核跳动不准确的问题
内存屏障，解决乱序执行不准确的问题
禁止降频和禁止Intel Turbo Boost，固定CPU频率，解决频率变动带来的失准问题

5. 编译执行优化

分支预测

古代CPU通过pipeline、superscalar进步并行处理能力，为了进一步施展并行能力会做分支预测，晋升CPU的并行能力。遇到分支时判断可能进入哪个分支，提前解决该分支的代码，事后做指令读取编码读取寄存器等，预测失败则预处理全副抛弃。咱们开发业务有时候会十分分明这个分支是true还是false，那就能够通过人工干预生成更紧凑的代码提醒CPU分支预测成功率。

#pragma once

#if !__GLIBC_PREREQ(2, 3)
#    if !define __builtin_expect
#        define __builtin_expect(x, expected_value) (x)
#    endif
#endif

#if !defined(likely)
#define likely(x) (__builtin_expect(!!(x), 1))
#endif

#if !defined(unlikely)
#define unlikely(x) (__builtin_expect(!!(x), 0))
#endif

CPU Cache预取

Cache Miss的代价十分高，回内存读须要65纳秒，能够将行将拜访的数据被动推送的CPU Cache进行优化。比拟典型的场景是链表的遍历，链表的下一节点都是随机内存地址，所以CPU必定是无奈主动预加载的。然而咱们在解决本节点时，能够通过CPU指令将下一个节点推送到Cache里。

API文档：https://doc.dpdk.org/api/rte__prefetch_8h.html

static inline void rte_prefetch0(const volatile void *p)
{
    asm volatile ("prefetcht0 %[p]" : : [p] "m" (*(const volatile char *)p));
}

#if !defined(prefetch)
#define prefetch(x) __builtin_prefetch(x)
#endif

…等等

内存对齐

内存对齐有2个益处：

l 防止构造体成员跨Cache Line，需2次读取能力合并到寄存器中，升高性能。构造体成员需从大到小排序和以及强制对齐。参考《Data alignment: Straighten up and fly right》

#define __rte_packed __attribute__((__packed__))

l 多线程场景下写产生False sharing，造成Cache Miss，构造体按Cache Line对齐

#ifndef CACHE_LINE_SIZE
#define CACHE_LINE_SIZE 64
#endif

#ifndef aligined
#define aligined(a) __attribute__((__aligned__(a)))
#endif

常量优化

常量相干的运算的编译阶段实现。比方C++11引入了constexp，比方能够应用GCC的__builtin_constant_p来判断值是否常量，而后对常量进行编译时得出后果。举例网络序主机序转换

#define rte_bswap32(x) ((uint32_t)(__builtin_constant_p(x) ?        
                   rte_constant_bswap32(x) :        
                   rte_arch_bswap32(x)))

其中rte_constant_bswap32的实现

#define RTE_STATIC_BSWAP32(v) 
    ((((uint32_t)(v) & UINT32_C(0x000000ff)) << 24) | 
     (((uint32_t)(v) & UINT32_C(0x0000ff00)) <<  8) | 
     (((uint32_t)(v) & UINT32_C(0x00ff0000)) >>  8) | 
     (((uint32_t)(v) & UINT32_C(0xff000000)) >> 24))

5）应用CPU指令

古代CPU提供很多指令可间接实现常见性能，比方大小端转换，x86有bswap指令间接反对了。

static inline uint64_t rte_arch_bswap64(uint64_t _x)
{
    register uint64_t x = _x;
    asm volatile ("bswap %[x]"
              : [x] "+r" (x)
              );
    return x;
}

这个实现，也是GLIBC的实现，先常量优化、CPU指令优化、最初才用裸代码实现。毕竟都是顶端程序员，对语言、编译器，对实现的谋求不一样，所以造轮子前肯定要先理解好轮子。

Google开源的cpu_features能够获取以后CPU反对什么个性，从而对特定CPU进行执行优化。高性能编程永无止境，对硬件、内核、编译器、开发语言的了解要深刻且与时俱进。

七、DPDK生态

对咱们互联网后盾开发来说DPDK框架自身提供的能力还是比拟裸的，比方要应用DPDK就必须实现ARP、IP层这些根底性能，有肯定上手难度。如果要更高层的业务应用，还须要用户态的传输协定反对。不倡议间接应用DPDK。

目前生态欠缺，社区弱小（一线大厂反对）的应用层开发我的项目是FD.io（The Fast Data Project），有思科开源反对的VPP，比较完善的协定反对，ARP、VLAN、Multipath、IPv4/v6、MPLS等。用户态传输协定UDP/TCP有TLDK。从我的项目定位到社区反对力度算比拟靠谱的框架。

腾讯云开源的F-Stack也值得关注一下，开发更简略，间接提供了POSIX接口。

Seastar也很弱小和灵便，内核态和DPDK都随便切换，也有本人的传输协定Seastar Native TCP/IP Stack反对，然而目前还未看到有大型项目在应用Seastar，可能须要填的坑比拟多。

咱们GBN Gateway我的项目须要反对L3/IP层接入做Wan网关，单机20GE，基于DPDK开发。

关于c++:如果你之前还没听过DPDK那我宣布你现在已经掌握了

一、网络IO的处境和趋势

二、Linux + x86网络IO瓶颈

三、DPDK的基本原理

四、DPDK的基石UIO

五、DPDK外围优化：PMD

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于c++:如果你之前还没听过DPDK那我宣布你现在已经掌握了

一、网络IO的处境和趋势

二、Linux + x86网络IO瓶颈

三、DPDK的基本原理

四、DPDK的基石UIO

五、DPDK外围优化：PMD

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复