关于dpdk:高性能库DPDK精简理解

一、前言

才开始接触到DPDK，发现概念很多，很难以下理解，在这文章中记录下要害的内容，做到对dpdk的根本货色真正理解了。这样前面用它来写程序才可能顺利，不能赶进度啊，越赶进度反而可能越慢，慢慢来比拟快。本文次要是本人了解，参考很多文章，有哪里不了解的就查，做不到精湛，只理解含意。文章算是汇编，参考多篇文章，如有侵权，请告知，谢谢！

二、整体了解

历史：随着计算机核数的减少，网络带宽的减少，对主机进行网络包的解决性能要求越来越高，然而当初的操作系统对网络包解决的形式很低效。低效体现在： 1）网络数据包来了之后通过中断模式进行告诉，而cpu解决中断的能力是肯定的，如果网络中有大量的小数据包，造成了网络的拥挤，cpu解决不及时。【以前cpu的频率远高于网络设备，所以中断很无效】 2）操作系统的协定栈是单核解决，没方法利用当初操作系统的多核。 3）网络数据包从网卡到内核空间，再到用户空间，进行了屡次数据拷贝，性能比拟差。 DPDK 全称 Data Plane Development Kit 专一于数据面的软件开发套件，是专为Intel的网络芯片开发，运行于Linux和FreeBsd上。 DPDK扭转了传统的网络数据包的解决形式，在用户空间间接解决，图示如下：

传统VSDPDK抓包形式

三、重要概念了解

这外面阐明DPDK文档外面的次要概念，另外如何将概念与理论的咱们本人的机器上参数对应起来。

3.1 PPS：包转发率

即1s能够发送多个frame、在以太网外面为以太帧，咱们常说的接口带宽为1Gbits/s 、10Gbits/s 代表以太接口可能传输的最高速率，单位为（bit per second 位/秒）实际上，传输过程中，帧之间有间距（12个字节），每个帧后面还有前导（7个字节）、帧首界定符（1个字节）。帧实践转发率= BitRate/8 / (帧前导+帧间距+帧首界定符+报文长度）

以太帧传输中构造

依照10Gbits/s （没记错的话是万兆光纤）来计算下64个字节下的包的转发率。

最短帧大小

101024102410241024/(12+7+1+64) 8 约等于 1000M10 /(12+7+1+64) *8 = 14.880952380952381 M/PPS （百万数据包）也就是1s能够发送 1千400万个数据包。留神，这外面的Data长度是在46-1500个字节之间，所以最小的帧的长度为： 6+6+2+46+4 = 64个字节。线速：网卡或网络反对的最极限速度。汇总数据：

网卡的限速

arrival为每个数据包之间的工夫距离。 rte：runtime environment 即运行环境。 eal： environment abstraction layer 即形象环境层。

DPDK学习路线以及视频解说+qun720209036获取

**1.dpdk PCI原理与testpmd/l3fwd/skeletion

2.kni数据流程

3.dpdk实现dns

4.dpdk高性能网关实现

5.半虚拟化virtio/vhost的减速

3.2 UIO：用户空间IO

小的内核模块，用于将设施内存映射到用户空间，并且注册中断。 uio_pci_generic 为linux 内核模块，提供此性能，能够通过 modprobe uio_pci_generic 加载。然而其不反对虚构性能，DPDK，提供一个代替模块 igb_uio模块，通过 sudo modprobe uio sudo insmod kmod/igb_uio.ko 命令加载。

3.3 VFIO

VFIO是一个能够平安的把设施IO、中断、DMA等裸露到用户空间（usespace），从而在用户空间实现设施驱动的框架。用户空间间接拜访设施，虚构设施的调配能够取得更高的IO性能。参考（https://blog.csdn.net/wentyoo...） sudo modprobe vfio-pci 命令加载vfio驱动。 1.将两个82599以太网绑定到VFIO ./tools/dpdk_nic_bind.py -b vfio-pci 03：00.0 03：00.1 3.将82599 ehter绑定到IGB_UIO ./tools/dpdk_nic_bind.py -b igb_uio 03：00.0 03：00.1 可参看：http://www.cnblogs.com/vancas... 进行配置vfio驱动模式。两者都是用户空间的网卡驱动模块，只是据说UIO依赖IOMMU，VFIO性能更好，更平安，不过必须零碎和BSIO反对通过工具查看当初的绑定状况：

网卡的限速

阐明：以上driv谁阐明在应用的网卡驱动，前面unused为未应用能够兼容的网卡驱动。绑定命令： ./dpdk-devbind.py --bind=ixgbe 01:00.0

绑定网卡和驱动

留神在DPDK的驱动状况下，用ifconfig是看不到网卡的。

3.5 PMD

PMD, Poll Mode Driver 即轮询驱动模式，DPDK用这种轮询的模式替换中断模式

3.6 RSS

RSS(Receive Side Scaling)是一种可能在多处理器零碎下使接管报文在多个CPU之间高效散发的网卡驱动技术。

网卡对接管到的报文进行解析，获取IP地址、协定和端口五元组信息网卡通过配置的HASH函数依据五元组信息计算出HASH值,也能够依据二、三或四元组进行计算。取HASH值的低几位(这个具体网卡可能不同)作为RETA(redirection table)的索引依据RETA中存储的值散发到对应的CPU DPDK反对设置动态hash值和配置RETA。不过DPDK中RSS是基于端口的，并依据端口的接管队列进行报文散发的。例如咱们在一个端口上配置了3个接管队列(0,1,2)并开启了RSS，那么中就是这样的:

{0,1,2,0,1,2,0.........}

运行在不同CPU的应用程序就从不同的接管队列接管报文，这样就达到了报文散发的成果。在DPDK中通过设置rte_eth_conf中的mq_mode字段来开启RSS性能， rx_mode.mq_mode = ETH_MQ_RX_RSS。当RSS性能开启后，报文对应的rte_pktmbuf中就会存有RSS计算的hash值，能够通过pktmbuf.hash.rss来拜访。这个值能够间接用在后续报文处理过程中而不须要从新计算hash值，如疾速转发，标识报文流等。

3.7 对称RSS

在网络应用中，如果同一个连贯的双向报文在开启RSS之后被散发到同一个CPU上解决，这种RSS就称为对称RSS。 DPDK的hash算法没方法做到这一点，对咱们须要解析http报文，那么申请和拜访如果采纳一般的rss就造成了发送和返回报文无奈匹配的问题，如果dpdk要反对须要替换其Hash算法。

3.8 NUMA架构

NUMA(Non-Uniform Memory Architecture 非一致性内存架构）零碎。特点是每个处理器都有本地内存、拜访本地的内存块，拜访其余处理器对应的内存须要通过总线，慢。

NUMA架构

经典计算机架构

3.9 Hugepages大页内存

操作系统中，内存调配是依照页为单位调配的，页面的大小个别为4kB，如果页面大小固定内存越大，对应的页项越多，通过多级内存拜访越慢，TLB形式拜访内存更快，然而TLB存储的页项不多，所以须要缩小页面的个数，那么就通过减少页面大小的方法，增大内存页大小到2MB或1GB等。 DPDK次要分为2M和1G两种页面，具体反对要靠CPU，能够从cpu的flags外面看进去，举个例子：如果flags外面有pse标识，标识反对2M的大内存页面；如果有pdge1gb 标识，阐明反对1G的大内存页。

cpu的大页反对

查看内存大页信息

四重要模块划分

以下为重要的内核模块划分。

重要模块划分