乐趣区

关于linux:面试官linux零拷贝的原理是什么

1. 前言
像大白这种调包侠,深知不懂底层技术点就如同海市蜃楼,再这样上来面阿里 p10 是没心愿了。

想到这里,我开始慌了,所以明天和大家一起学习个底层技术点 - 零拷贝 Zero-Copy。

Linux 零碎中所有皆文件,认真想一下 Linux 零碎的很多流动无外乎读操作和写操作,零拷贝就是为了进步读写性能而呈现的。

废话不多说,马上开大车,走起!

  1. 数据拷贝根底过程
    在 Linux 零碎外部缓存和内存容量都是无限的,更多的数据都是存储在磁盘中。对于 Web 服务器来说,常常须要从磁盘中读取数据到内存,而后再通过网卡传输给用户:

上述数据流转只是大框,接下来看看几种模式。

2.1 仅 CPU 形式
当应用程序须要读取磁盘数据时,调用 read()从用户态陷入内核态,read()这个零碎调用最终由 CPU 来实现;
CPU 向磁盘发动 I / O 申请,磁盘收到之后开始筹备数据;
磁盘将数据放到磁盘缓冲区之后,向 CPU 发动 I / O 中断,报告 CPU 数据曾经 Ready 了;
CPU 收到磁盘控制器的 I / O 中断之后,开始拷贝数据,实现之后 read()返回,再从内核态切换到用户态;

2.2 CPU&DMA 形式
CPU 的工夫贵重,让它做杂活就是浪费资源。

间接内存拜访(Direct Memory Access),是一种硬件设施绕开 CPU 独立间接拜访内存的机制。所以 DMA 在肯定水平上解放了 CPU,把之前 CPU 的杂活让硬件间接本人做了,进步了 CPU 效率。

目前反对 DMA 的硬件包含:网卡、声卡、显卡、磁盘控制器等。

有了 DMA 的参加之后的流程产生了一些变动:

最次要的变动是,CPU 不再和磁盘间接交互,而是 DMA 和磁盘交互并且将数据从磁盘缓冲区拷贝到内核缓冲区,之后的过程相似。

“【敲黑板】无论从仅 CPU 形式和 DMA&CPU 形式,都存在屡次冗余数据拷贝和内核态 & 用户态的切换。

咱们持续思考 Web 服务器读取本地磁盘文件数据再通过网络传输给用户的具体过程。

3. 一般模式数据交互
一次实现的数据交互包含几个局部:零碎调用 syscall、CPU、DMA、网卡、磁盘等。

零碎调用 syscall 是应用程序和内核交互的桥梁,每次进行调用 / 返回就会产生两次切换:

调用 syscall 从用户态切换到内核态
syscall 返回 从内核态切换到用户态

来看下残缺的数据拷贝过程简图:

读数据过程:

应用程序要读取磁盘数据,调用 read()函数从而实现用户态切换内核态,这是第 1 次状态切换;
DMA 控制器将数据从磁盘拷贝到内核缓冲区,这是第 1 次 DMA 拷贝;
CPU 将数据从内核缓冲区复制到用户缓冲区,这是第 1 次 CPU 拷贝;
CPU 实现拷贝之后,read()函数返回实现用户态切换用户态,这是第 2 次状态切换;
写数据过程:

应用程序要向网卡写数据,调用 write()函数实现用户态切换内核态,这是第 1 次切换;
CPU 将用户缓冲区数据拷贝到内核缓冲区,这是第 1 次 CPU 拷贝;
DMA 控制器将数据从内核缓冲区复制到 socket 缓冲区,这是第 1 次 DMA 拷贝;
实现拷贝之后,write()函数返回实现内核态切换用户态,这是第 2 次切换;
综上所述:

读过程波及 2 次空间切换、1 次 DMA 拷贝、1 次 CPU 拷贝;
写过程波及 2 次空间切换、1 次 DMA 拷贝、1 次 CPU 拷贝;
可见传统模式下,波及屡次空间切换和数据冗余拷贝,效率并不高,接下来就该零拷贝技术出场了。

  1. 零拷贝技术
    4.1 呈现起因
    咱们能够看到,如果应用程序不对数据做批改,从内核缓冲区到用户缓冲区,再从用户缓冲区到内核缓冲区。两次数据拷贝都须要 CPU 的参加,并且波及用户态与内核态的屡次切换,减轻了 CPU 累赘。

咱们须要升高冗余数据拷贝、解放 CPU,这也就是零拷贝 Zero-Copy 技术。

4.2 解决思路
目前来看,零拷贝技术的几个实现伎俩包含:mmap+write、sendfile、sendfile+DMA 收集、splice 等。

4.2.1 mmap 形式
mmap 是 Linux 提供的一种内存映射文件的机制,它实现了将内核中读缓冲区地址与用户空间缓冲区地址进行映射,从而实现内核缓冲区与用户缓冲区的共享。

这样就缩小了一次用户态和内核态的 CPU 拷贝,然而在内核空间内依然有一次 CPU 拷贝。

mmap 对大文件传输有肯定劣势,然而小文件可能呈现碎片,并且在多个过程同时操作文件时可能产生引发 coredump 的 signal。

4.2.2 sendfile 形式
mmap+write 形式有肯定改良,然而由零碎调用引起的状态切换并没有缩小。

sendfile 零碎调用是在 Linux 内核 2.1 版本中被引入,它建设了两个文件之间的传输通道。

sendfile 形式只应用一个函数就能够实现之前的 read+write 和 mmap+write 的性能,这样就少了 2 次状态切换,因为数据不通过用户缓冲区,因而该数据无奈被批改。

从图中能够看到,应用程序只须要调用 sendfile 函数即可实现,只有 2 次状态切换、1 次 CPU 拷贝、2 次 DMA 拷贝。

然而 sendfile 在内核缓冲区和 socket 缓冲区依然存在一次 CPU 拷贝,或者这个还能够优化。

4.2.3 sendfile+DMA 收集
Linux 2.4 内核对 sendfile 零碎调用进行优化,然而须要硬件 DMA 控制器的配合。

降级后的 sendfile 将内核空间缓冲区中对应的数据形容信息(文件描述符、地址偏移量等信息)记录到 socket 缓冲区中。

DMA 控制器依据 socket 缓冲区中的地址和偏移量将数据从内核缓冲区拷贝到网卡中,从而省去了内核空间中仅剩 1 次 CPU 拷贝。

这种形式有 2 次状态切换、0 次 CPU 拷贝、2 次 DMA 拷贝,然而依然无奈对数据进行批改,并且须要硬件层面 DMA 的反对,并且 sendfile 只能将文件数据拷贝到 socket 描述符上,有肯定的局限性。

4.2.4 splice 形式
splice 零碎调用是 Linux 在 2.6 版本引入的,其不须要硬件反对,并且不再限定于 socket 上,实现两个一般文件之间的数据零拷贝。

splice 零碎调用能够在内核缓冲区和 socket 缓冲区之间建设管道来传输数据,防止了两者之间的 CPU 拷贝操作。

splice 也有一些局限,它的两个文件描述符参数中有一个必须是管道设施。

5. 本文小结
本文通过介绍数据交互的根本过程、传统模式的毛病,进而介绍了零拷贝的一些实现办法。

零拷贝技术是十分底层且重要的读写优化,对于服务并发能力的晋升有很大帮忙,就这么多吧,下期再见!

最初
如果你感觉此文对你有一丁点帮忙,点个赞。或者能够退出我的开发交换群:1025263163 互相学习,咱们会有业余的技术答疑解惑

如果你感觉这篇文章对你有点用的话,麻烦请给咱们的开源我的项目点点 star:http://github.crmeb.net/u/defu 不胜感激!

PHP 学习手册:https://doc.crmeb.com
技术交换论坛:https://q.crmeb.com

退出移动版