关于linux:Linux-IO模式及-selectpollepoll详解含部分实例源码

同步IO和异步IO，阻塞IO和非阻塞IO别离是什么，到底有什么区别？不同的人在不同的上下文下给出的答案是不同的。

一概念阐明

在进行解释之前，首先要阐明几个概念：- 用户空间和内核空间- 过程切换- 过程的阻塞- 文件描述符- 缓存 I/O

用户空间与内核空间

当初操作系统都是采纳虚拟存储器，那么对32位操作系统而言，它的寻址空间（虚拟存储空间）为4G（2的32次方）。操作系统的外围是内核，独立于一般的应用程序，能够拜访受爱护的内存空间，也有拜访底层硬件设施的所有权限。为了保障用户过程不能间接操作内核（kernel），保障内核的平安，操心零碎将虚拟空间划分为两局部，一部分为内核空间，一部分为用户空间。针对linux操作系统而言，将最高的1G字节（从虚拟地址0xC0000000到0xFFFFFFFF），供内核应用，称为内核空间，而将较低的3G字节（从虚拟地址0x00000000到0xBFFFFFFF），供各个过程应用，称为用户空间。

过程切换

为了管制过程的执行，内核必须有能力挂起正在CPU上运行的过程，并复原以前挂起的某个过程的执行。这种行为被称为过程切换。因而能够说，任何过程都是在操作系统内核的反对下运行的，是与内核严密相干的。

从一个过程的运行转到另一个过程上运行，这个过程中通过上面这些变动：1. 保留处理机上下文，包含程序计数器和其余寄存器。2. 更新PCB信息。3. 把过程的PCB移入相应的队列，如就绪、在某事件阻塞等队列。4. 抉择另一个过程执行，并更新其PCB。5. 更新内存治理的数据结构。6. 复原处理机上下文。

注：总而言之就是很耗资源，具体的能够参考这篇文章：过程切换

过程的阻塞

正在执行的过程，因为期待的某些事件未产生，如申请系统资源失败、期待某种操作的实现、新数据尚未达到或无新工作做等，则由零碎主动执行阻塞原语(Block)，使本人由运行状态变为阻塞状态。可见，过程的阻塞是过程本身的一种被动行为，也因而只有处于运行态的过程（取得CPU），才可能将其转为阻塞状态。当过程进入阻塞状态，是不占用CPU资源的。

文件描述符fd

文件描述符（File descriptor）是计算机科学中的一个术语，是一个用于表述指向文件的援用的抽象化概念。

文件描述符在模式上是一个非负整数。实际上，它是一个索引值，指向内核为每一个过程所保护的该过程关上文件的记录表。当程序关上一个现有文件或者创立一个新文件时，内核向过程返回一个文件描述符。在程序设计中，一些波及底层的程序编写往往会围绕着文件描述符开展。然而文件描述符这一概念往往只实用于UNIX、Linux这样的操作系统。

缓存 I/O

缓存 I/O 又被称作规范 I/O，大多数文件系统的默认 I/O 操作都是缓存 I/O。在 Linux 的缓存 I/O 机制中，操作系统会将 I/O 的数据缓存在文件系统的页缓存（ page cache ）中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，而后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。

缓存 I/O 的毛病：数据在传输过程中须要在应用程序地址空间和内核进行屡次数据拷贝操作，这些数据拷贝操作所带来的 CPU 以及内存开销是十分大的。

须要C/C++ Linux服务器架构师学习材料加群812855908（材料包含C/C++，Linux，golang技术，Nginx，ZeroMQ，MySQL，Redis，fastdfs，MongoDB，ZK，流媒体，CDN，P2P，K8S，Docker，TCP/IP，协程，DPDK，ffmpeg等），收费分享

二 IO模式

方才说了，对于一次IO拜访（以read举例），数据会先被拷贝到操作系统内核的缓冲区中，而后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。所以说，当一个read操作产生时，它会经验两个阶段：1. 期待数据筹备 (Waiting for the data to be ready)2. 将数据从内核拷贝到过程中 (Copying the data from the kernel to the process)

正式因为这两个阶段，linux零碎产生了上面五种网络模式的计划。- 阻塞 I/O（blocking IO）- 非阻塞 I/O（nonblocking IO）- I/O 多路复用（ IO multiplexing）- 信号驱动 I/O（ signal driven IO）- 异步 I/O（asynchronous IO）

注：因为signal driven IO在理论中并不罕用，所以我这只提及剩下的四种IO Model。

阻塞 I/O（blocking IO）

在linux中，默认状况下所有的socket都是blocking，一个典型的读操作流程大略是这样：

当用户过程调用了recvfrom这个零碎调用，kernel就开始了IO的第一个阶段：筹备数据（对于网络IO来说，很多时候数据在一开始还没有达到。比方，还没有收到一个残缺的UDP包。这个时候kernel就要期待足够的数据到来）。这个过程须要期待，也就是说数据被拷贝到操作系统内核的缓冲区中是须要一个过程的。而在用户过程这边，整个过程会被阻塞（当然，是过程本人抉择的阻塞）。当kernel始终等到数据筹备好了，它就会将数据从kernel中拷贝到用户内存，而后kernel返回后果，用户过程才解除block的状态，从新运行起来。

所以，blocking IO的特点就是在IO执行的两个阶段都被block了。

非阻塞 I/O（nonblocking IO）

linux下，能够通过设置socket使其变为non-blocking。当对一个non-blocking socket执行读操作时，流程是这个样子：

当用户过程收回read操作时，如果kernel中的数据还没有筹备好，那么它并不会block用户过程，而是立即返回一个error。从用户过程角度讲，它发动一个read操作后，并不需要期待，而是马上就失去了一个后果。用户过程判断后果是一个error时，它就晓得数据还没有筹备好，于是它能够再次发送read操作。一旦kernel中的数据筹备好了，并且又再次收到了用户过程的system call，那么它马上就将数据拷贝到了用户内存，而后返回。

所以，nonblocking IO的特点是用户过程须要一直的被动询问kernel数据好了没有。

I/O 多路复用（ IO multiplexing）

IO multiplexing就是咱们说的select，poll，epoll，有些中央也称这种IO形式为event driven IO。select/epoll的益处就在于单个process就能够同时解决多个网络连接的IO。它的基本原理就是select，poll，epoll这个function会一直的轮询所负责的所有socket，当某个socket有数据达到了，就告诉用户过程。

当用户过程调用了select，那么整个过程会被block，而同时，kernel会“监督”所有select负责的socket，当任何一个socket中的数据筹备好了，select就会返回。这个时候用户过程再调用read操作，将数据从kernel拷贝到用户过程。

所以，I/O 多路复用的特点是通过一种机制一个过程能同时期待多个文件描述符，而这些文件描述符（套接字描述符）其中的任意一个进入读就绪状态，select()函数就能够返回。

这个图和blocking IO的图其实并没有太大的不同，事实上，还更差一些。因为这里须要应用两个system call (select 和 recvfrom)，而blocking IO只调用了一个system call (recvfrom)。然而，用select的劣势在于它能够同时解决多个connection。

所以，如果解决的连接数不是很高的话，应用select/epoll的web server不肯定比应用multi-threading + blocking IO的web server性能更好，可能提早还更大。select/epoll的劣势并不是对于单个连贯能解决得更快，而是在于能解决更多的连贯。）

在IO multiplexing Model中，理论中，对于每一个socket，个别都设置成为non-blocking，然而，如上图所示，整个用户的process其实是始终被block的。只不过process是被select这个函数block，而不是被socket IO给block。

异步 I/O（asynchronous IO）

inux下的asynchronous IO其实用得很少。先看一下它的流程：

用户过程发动read操作之后，立即就能够开始去做其它的事。而另一方面，从kernel的角度，当它受到一个asynchronous read之后，首先它会立即返回，所以不会对用户过程产生任何block。而后，kernel会期待数据筹备实现，而后将数据拷贝到用户内存，当这所有都实现之后，kernel会给用户过程发送一个signal，通知它read操作实现了。

总结

blocking和non-blocking的区别

调用blocking IO会始终block住对应的过程直到操作实现，而non-blocking IO在kernel还筹备数据的状况下会立即返回。

synchronous IO和asynchronous IO的区别

在阐明synchronous IO和asynchronous IO的区别之前，须要先给出两者的定义。POSIX的定义是这样子的：- A synchronous I/O operation causes the requesting process to be blocked until that I/O operation completes;- An asynchronous I/O operation does not cause the requesting process to be blocked;

两者的区别就在于synchronous IO做”IO operation”的时候会将process阻塞。依照这个定义，之前所述的blocking IO，non-blocking IO，IO multiplexing都属于synchronous IO。

有人会说，non-blocking IO并没有被block啊。这里有个十分“刁滑”的中央，定义中所指的”IO operation”是指实在的IO操作，就是例子中的recvfrom这个system call。non-blocking IO在执行recvfrom这个system call的时候，如果kernel的数据没有筹备好，这时候不会block过程。然而，当kernel中数据筹备好的时候，recvfrom会将数据从kernel拷贝到用户内存中，这个时候过程是被block了，在这段时间内，过程是被block的。

而asynchronous IO则不一样，当过程发动IO 操作之后，就间接返回再也不理会了，直到kernel发送一个信号，通知过程说IO实现。在这整个过程中，过程齐全没有被block。

各个IO Model的比拟如图所示：

通过下面的图片，能够发现non-blocking IO和asynchronous IO的区别还是很显著的。在non-blocking IO中，尽管过程大部分工夫都不会被block，然而它依然要求过程去被动的check，并且当数据筹备实现当前，也须要过程被动的再次调用recvfrom来将数据拷贝到用户内存。而asynchronous IO则齐全不同。它就像是用户过程将整个IO操作交给了别人（kernel）实现，而后别人做完后发信号告诉。在此期间，用户过程不须要去查看IO操作的状态，也不须要被动的去拷贝数据。

三 I/O 多路复用之select、poll、epoll详解

select，poll，epoll都是IO多路复用的机制。I/O多路复用就是通过一种机制，一个过程能够监督多个描述符，一旦某个描述符就绪（个别是读就绪或者写就绪），可能告诉程序进行相应的读写操作。但select，poll，epoll实质上都是同步I/O，因为他们都须要在读写事件就绪后本人负责进行读写，也就是说这个读写过程是阻塞的，而异步I/O则无需本人负责进行读写，异步I/O的实现会负责把数据从内核拷贝到用户空间。（这里啰嗦下）

select

int select (int n, fd_set *readfds, fd_set *writefds, fd_set *exceptfds, struct timeval *timeout);

select 函数监督的文件描述符分3类，别离是writefds、readfds、和exceptfds。调用后select函数会阻塞，直到有形容副就绪（有数据可读、可写、或者有except），或者超时（timeout指定等待时间，如果立刻返回设为null即可），函数返回。当select函数返回后，能够通过遍历fdset，来找到就绪的描述符。

select目前简直在所有的平台上反对，其良好跨平台反对也是它的一个长处。select的一个毛病在于单个过程可能监督的文件描述符的数量存在最大限度，在Linux上个别为1024，能够通过批改宏定义甚至从新编译内核的形式晋升这一限度，但是这样也会造成效率的升高。

poll

int poll (struct pollfd *fds, unsigned int nfds, int timeout);

不同与select应用三个位图来示意三个fdset的形式，poll应用一个 pollfd的指针实现。

struct pollfd {    int fd; /* file descriptor */    short events; /* requested events to watch */    short revents; /* returned events witnessed */};

pollfd构造蕴含了要监督的event和产生的event，不再应用select“参数-值”传递的形式。同时，pollfd并没有最大数量限度（然而数量过大后性能也是会降落）。和select函数一样，poll返回后，须要轮询pollfd来获取就绪的描述符。

从下面看，select和poll都须要在返回后，通过遍历文件描述符来获取曾经就绪的socket。事实上，同时连贯的大量客户端在一时刻可能只有很少的处于就绪状态，因而随着监督的描述符数量的增长，其效率也会线性降落。

epoll

epoll是在2.6内核中提出的，是之前的select和poll的加强版本。绝对于select和poll来说，epoll更加灵便，没有描述符限度。epoll应用一个文件描述符治理多个描述符，将用户关系的文件描述符的事件寄存到内核的一个事件表中，这样在用户空间和内核空间的copy只需一次。

一 epoll操作过程

epoll操作过程须要三个接口，别离如下：

int epoll_create(int size)；//创立一个epoll的句柄，size用来通知内核这个监听的数目一共有多大int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event)；int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout);

1. int epoll_create(int size);创立一个epoll的句柄，size用来通知内核这个监听的数目一共有多大，这个参数不同于select()中的第一个参数，给出最大监听的fd+1的值，参数size并不是限度了epoll所能监听的描述符最大个数，只是对内核初始调配外部数据结构的一个倡议。当创立好epoll句柄后，它就会占用一个fd值，在linux下如果查看/proc/过程id/fd/，是可能看到这个fd的，所以在应用完epoll后，必须调用close()敞开，否则可能导致fd被耗尽。

2. int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event)；函数是对指定描述符fd执行op操作。- epfd：是epoll_create()的返回值。- op：示意op操作，用三个宏来示意：增加EPOLL_CTL_ADD，删除EPOLL_CTL_DEL，批改EPOLL_CTL_MOD。别离增加、删除和批改对fd的监听事件。- fd：是须要监听的fd（文件描述符）- epoll_event：是通知内核须要监听什么事，struct epoll_event构造如下：

struct epoll_event {  __uint32_t events;  /* Epoll events */  epoll_data_t data;  /* User data variable */};//events能够是以下几个宏的汇合：EPOLLIN ：示意对应的文件描述符能够读（包含对端SOCKET失常敞开）；EPOLLOUT：示意对应的文件描述符能够写；EPOLLPRI：示意对应的文件描述符有紧急的数据可读（这里应该示意有带外数据到来）；EPOLLERR：示意对应的文件描述符产生谬误；EPOLLHUP：示意对应的文件描述符被挂断；EPOLLET： 将EPOLL设为边缘触发(Edge Triggered)模式，这是绝对于程度触发(Level Triggered)来说的。EPOLLONESHOT：只监听一次事件，当监听完这次事件之后，如果还须要持续监听这个socket的话，须要再次把这个socket退出到EPOLL队列里

3. int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout);期待epfd上的io事件，最多返回maxevents个事件。参数events用来从内核失去事件的汇合，maxevents告之内核这个events有多大，这个maxevents的值不能大于创立epoll_create()时的size，参数timeout是超时工夫（毫秒，0会立刻返回，-1将不确定，也有说法说是永恒阻塞）。该函数返回须要解决的事件数目，如返回0示意已超时。

二工作模式

　epoll对文件描述符的操作有两种模式：LT（level trigger）和ET（edge trigger）。LT模式是默认模式，LT模式与ET模式的区别如下：　　LT模式：当epoll_wait检测到描述符事件产生并将此事件告诉应用程序，应用程序能够不立刻解决该事件。下次调用epoll_wait时，会再次响应应用程序并告诉此事件。　　ET模式：当epoll_wait检测到描述符事件产生并将此事件告诉应用程序，应用程序必须立刻解决该事件。如果不解决，下次调用epoll_wait时，不会再次响应应用程序并告诉此事件。

1. LT模式

LT(level triggered)是缺省的工作形式，并且同时反对block和no-block socket.在这种做法中，内核通知你一个文件描述符是否就绪了，而后你能够对这个就绪的fd进行IO操作。如果你不作任何操作，内核还是会持续告诉你的。

2. ET模式

ET(edge-triggered)是高速工作形式，只反对no-block socket。在这种模式下，当描述符从未就绪变为就绪时，内核通过epoll通知你。而后它会假如你晓得文件描述符曾经就绪，并且不会再为那个文件描述符发送更多的就绪告诉，直到你做了某些操作导致那个文件描述符不再为就绪状态了(比方，你在发送，接管或者接管申请，或者发送接管的数据少于一定量时导致了一个EWOULDBLOCK 谬误）。然而请留神，如果始终不对这个fd作IO操作(从而导致它再次变成未就绪)，内核不会发送更多的告诉(only once)

ET模式在很大水平上缩小了epoll事件被反复触发的次数，因而效率要比LT模式高。epoll工作在ET模式的时候，必须应用非阻塞套接口，以防止因为一个文件句柄的阻塞读/阻塞写操作把解决多个文件描述符的工作饿死。

3. 总结

如果有这样一个例子：1. 咱们曾经把一个用来从管道中读取数据的文件句柄(RFD)增加到epoll描述符2. 这个时候从管道的另一端被写入了2KB的数据3. 调用epoll_wait(2)，并且它会返回RFD，阐明它曾经筹备好读取操作4. 而后咱们读取了1KB的数据5. 调用epoll_wait(2)......

LT模式：如果是LT模式，那么在第5步调用epoll_wait(2)之后，依然能受到告诉。

ET模式：如果咱们在第1步将RFD增加到epoll描述符的时候应用了EPOLLET标记，那么在第5步调用epoll_wait(2)之后将有可能会挂起，因为残余的数据还存在于文件的输出缓冲区内，而且数据收回端还在期待一个针对曾经收回数据的反馈信息。只有在监督的文件句柄上产生了某个事件的时候 ET 工作模式才会汇报事件。因而在第5步的时候，调用者可能会放弃期待仍在存在于文件输出缓冲区内的残余数据。

当应用epoll的ET模型来工作时，当产生了一个EPOLLIN事件后，读数据的时候须要思考的是当recv()返回的大小如果等于申请的大小，那么很有可能是缓冲区还有数据未读完，也意味着该次事件还没有解决完，所以还须要再次读取：

while(rs){  buflen = recv(activeevents[i].data.fd, buf, sizeof(buf), 0);  if(buflen < 0){    // 因为是非阻塞的模式,所以当errno为EAGAIN时,示意以后缓冲区已无数据可读    // 在这里就当作是该次事件已解决处.    if(errno == EAGAIN){        break;    }    else{        return;    }  }  else if(buflen == 0){     // 这里示意对端的socket已失常敞开.  } if(buflen == sizeof(buf){      rs = 1;   // 须要再次读取 } else{      rs = 0; }}

Linux中的EAGAIN含意

Linux环境下开发常常会碰到很多谬误(设置errno)，其中EAGAIN是其中比拟常见的一个谬误(比方用在非阻塞操作中)。从字面上来看，是提醒再试一次。这个谬误经常出现在当应用程序进行一些非阻塞(non-blocking)操作(对文件或socket)的时候。

例如，以 O_NONBLOCK的标记关上文件/socket/FIFO，如果你间断做read操作而没有数据可读。此时程序不会阻塞起来期待数据准备就绪返回，read函数会返回一个谬误EAGAIN，提醒你的应用程序当初没有数据可读请稍后再试。又例如，当一个零碎调用(比方fork)因为没有足够的资源(比方虚拟内存)而执行失败，返回EAGAIN提醒其再调用一次(兴许下次就能胜利)。

三代码演示

上面是一段不残缺的代码且格局不对，意在表述下面的过程，去掉了一些模板代码。

#define IPADDRESS   "127.0.0.1"#define PORT        8787#define MAXSIZE     1024#define LISTENQ     5#define FDSIZE      1000#define EPOLLEVENTS 100listenfd = socket_bind(IPADDRESS,PORT);struct epoll_event events[EPOLLEVENTS];//创立一个描述符epollfd = epoll_create(FDSIZE);//增加监听描述符事件add_event(epollfd,listenfd,EPOLLIN);//循环期待for ( ; ; ){    //该函数返回曾经筹备好的描述符事件数目    ret = epoll_wait(epollfd,events,EPOLLEVENTS,-1);    //解决接管到的连贯    handle_events(epollfd,events,ret,listenfd,buf);}//事件处理函数static void handle_events(int epollfd,struct epoll_event *events,int num,int listenfd,char *buf) {     int i;     int fd;     //进行遍历;这里只有遍历曾经筹备好的io事件。num并不是当初epoll_create时的FDSIZE。     for (i = 0;i < num;i++)     {         fd = events[i].data.fd;        //依据描述符的类型和事件类型进行解决         if ((fd == listenfd) &&(events[i].events & EPOLLIN))            handle_accpet(epollfd,listenfd);         else if (events[i].events & EPOLLIN)            do_read(epollfd,fd,buf);         else if (events[i].events & EPOLLOUT)            do_write(epollfd,fd,buf);     }}//增加事件static void add_event(int epollfd,int fd,int state){    struct epoll_event ev;    ev.events = state;    ev.data.fd = fd;    epoll_ctl(epollfd,EPOLL_CTL_ADD,fd,&ev);}//解决接管到的连贯static void handle_accpet(int epollfd,int listenfd){     int clifd;          struct sockaddr_in cliaddr;          socklen_t  cliaddrlen;          clifd = accept(listenfd,(struct sockaddr*)&cliaddr,&cliaddrlen);          if (clifd == -1)              perror("accpet error:");          else {                  printf("accept a new client: %s:%dn",inet_ntoa(cliaddr.sin_addr),cliaddr.sin_port);                       //增加一个客户描述符和事件          add_event(epollfd,clifd,EPOLLIN);          } }//读解决static void do_read(int epollfd,int fd,char *buf){    int nread;    nread = read(fd,buf,MAXSIZE);    if (nread == -1)     {                 perror("read error:");                 close(fd); //记住close fd         delete_event(epollfd,fd,EPOLLIN); //删除监听     }    else if (nread == 0)     {                 fprintf(stderr,"client close.n");        close(fd); //记住close fd         delete_event(epollfd,fd,EPOLLIN); //删除监听     }         else {                 printf("read message is : %s",buf);                //批改描述符对应的事件，由读改为写         modify_event(epollfd,fd,EPOLLOUT);         } }//写解决static void do_write(int epollfd,int fd,char *buf) {         int nwrite;         nwrite = write(fd,buf,strlen(buf));         if (nwrite == -1){                 perror("write error:");                close(fd);   //记住close fd         delete_event(epollfd,fd,EPOLLOUT);  //删除监听     }else{        modify_event(epollfd,fd,EPOLLIN);     }        memset(buf,0,MAXSIZE); }//删除事件static void delete_event(int epollfd,int fd,int state) {    struct epoll_event ev;    ev.events = state;    ev.data.fd = fd;    epoll_ctl(epollfd,EPOLL_CTL_DEL,fd,&ev);}//批改事件static void modify_event(int epollfd,int fd,int state){         struct epoll_event ev;    ev.events = state;    ev.data.fd = fd;    epoll_ctl(epollfd,EPOLL_CTL_MOD,fd,&ev);}//注：另外一端我就省了

四 epoll总结

在 select/poll中，过程只有在调用肯定的办法后，内核才对所有监督的文件描述符进行扫描，而epoll当时通过epoll_ctl()来注册一个文件描述符，一旦基于某个文件描述符就绪时，内核会采纳相似callback的回调机制，迅速激活这个文件描述符，当过程调用epoll_wait() 时便失去告诉。(此处去掉了遍历文件描述符，而是通过监听回调的的机制。这正是epoll的魅力所在。)

epoll的长处次要是以下个方面：1. 监督的描述符数量不受限制，它所反对的FD下限是最大能够关上文件的数目，这个数字个别远大于2048,举个例子,在1GB内存的机器上大概是10万左右，具体数目能够cat /proc/sys/fs/file-max查看,一般来说这个数目和零碎内存关系很大。select的最大毛病就是过程关上的fd是有数量限度的。这对于连贯数量比拟大的服务器来说基本不能满足。尽管也能够抉择多过程的解决方案( Apache就是这样实现的)，不过尽管linux下面创立过程的代价比拟小，但仍旧是不可漠视的，加上过程间数据同步远比不上线程间同步的高效，所以也不是一种完满的计划。

IO的效率不会随着监督fd的数量的增长而降落。epoll不同于select和poll轮询的形式，而是通过每个fd定义的回调函数来实现的。只有就绪的fd才会执行回调函数。

如果没有大量的idle -connection或者dead-connection，epoll的效率并不会比select/poll高很多，然而当遇到大量的idle- connection，就会发现epoll的效率大大高于select/poll。

一 概念阐明