关于java:高性能IO模型浅析之BIONIOAIOIO多路复用-基础介绍

高性能IO模型浅析

服务器端编程常常须要结构高性能的IO模型，常见的IO模型有四种：

（1）同步阻塞IO（Blocking IO）：即传统的IO模型。

（2）同步非阻塞IO（Non-blocking IO）：默认创立的socket都是阻塞的，非阻塞IO要求socket被设置为NONBLOCK。留神这里所说的NIO并非Java的NIO（New IO）库。

（3）IO多路复用（IO Multiplexing）：即经典的Reactor设计模式，有时也称为异步阻塞IO，Java中的Selector和Linux中的epoll都是这种模型。

（4）异步IO（Asynchronous IO）：即经典的Proactor设计模式，也称为异步非阻塞IO。

同步和异步的概念形容的是用户线程与内核的交互方式：同步是指用户线程发动IO申请后须要期待或者轮询内核IO操作实现后能力继续执行；而异步是指用户线程发动IO申请后仍继续执行，当内核IO操作实现后会告诉用户线程，或者调用用户线程注册的回调函数。

阻塞和非阻塞的概念形容的是用户线程调用内核IO操作的形式：阻塞是指IO操作须要彻底实现后才返回到用户空间；而非阻塞是指IO操作被调用后立刻返回给用户一个状态值，无需等到IO操作彻底实现。

另外，Richard Stevens 在《Unix 网络编程》卷1中提到的基于信号驱动的IO（Signal Driven IO）模型，因为该模型并不罕用，本文不作波及。接下来，咱们详细分析四种常见的IO模型的实现原理。为了不便形容，咱们对立应用IO的读操作作为示例。

一、同步阻塞IO

同步阻塞IO模型是最简略的IO模型，用户线程在内核进行IO操作时被阻塞。

图1 同步阻塞IO

如图1所示，用户线程通过零碎调用read发动IO读操作，由用户空间转到内核空间。内核等到数据包达到后，而后将接管的数据拷贝到用户空间，实现read操作。

用户线程应用同步阻塞IO模型的伪代码形容为：

{    read(socket, buffer);    process(buffer);}

即用户须要期待read将socket中的数据读取到buffer后，才持续解决接管的数据。整个IO申请的过程中，用户线程是被阻塞的，这导致用户在发动IO申请时，不能做任何事件，对CPU的资源利用率不够。

二、同步非阻塞IO

同步非阻塞IO是在同步阻塞IO的根底上，将socket设置为NONBLOCK。这样做用户线程能够在发动IO申请后能够立刻返回。

图2 同步非阻塞IO

如图2所示，因为socket是非阻塞的形式，因而用户线程发动IO申请时立刻返回。但并未读取到任何数据，用户线程须要一直地发动IO申请，直到数据达到后，才真正读取到数据，继续执行。

用户线程应用同步非阻塞IO模型的伪代码形容为：

{    while(read(socket, buffer) != SUCCESS)        ;    process(buffer);}

即用户须要一直地调用read，尝试读取socket中的数据，直到读取胜利后，才持续解决接管的数据。整个IO申请的过程中，尽管用户线程每次发动IO申请后能够立刻返回，然而为了等到数据，仍须要一直地轮询、反复申请，耗费了大量的CPU的资源。个别很少间接应用这种模型，而是在其余IO模型中应用非阻塞IO这一个性。

三、IO多路复用

IO多路复用模型是建设在内核提供的多路拆散函数select根底之上的，应用select函数能够防止同步非阻塞IO模型中轮询期待的问题。

图3 多路拆散函数select

如图3所示，用户首先将须要进行IO操作的socket增加到select中，而后阻塞期待select零碎调用返回。当数据达到时，socket被激活，select函数返回。用户线程正式发动read申请，读取数据并继续执行。

从流程上来看，应用select函数进行IO申请和同步阻塞模型没有太大的区别，甚至还多了增加监督socket，以及调用select函数的额定操作，效率更差。然而，应用select当前最大的劣势是用户能够在一个线程内同时解决多个socket的IO申请。用户能够注册多个socket，而后一直地调用select读取被激活的socket，即可达到在同一个线程内同时解决多个IO申请的目标。而在同步阻塞模型中，必须通过多线程的形式能力达到这个目标。

用户线程应用select函数的伪代码形容为：

{    select(socket);    while(1)     {        sockets = select();        for(socket in sockets)         {            if(can_read(socket))             {                read(socket, buffer);                process(buffer);            }        }    }}

其中while循环前将socket增加到select监督中，而后在while内始终调用select获取被激活的socket，一旦socket可读，便调用read函数将socket中的数据读取进去。

然而，应用select函数的长处并不仅限于此。尽管上述形式容许单线程内解决多个IO申请，然而每个IO申请的过程还是阻塞的（在select函数上阻塞），均匀工夫甚至比同步阻塞IO模型还要长。如果用户线程只注册本人感兴趣的socket或者IO申请，而后去做本人的事件，等到数据到来时再进行解决，则能够进步CPU的利用率。

IO多路复用模型应用了Reactor设计模式实现了这一机制。

图4 Reactor设计模式

如图4所示，EventHandler抽象类示意IO事件处理器，它领有IO文件句柄Handle（通过get\_handle获取），以及对Handle的操作handle\_event（读/写等）。继承于EventHandler的子类能够对事件处理器的行为进行定制。Reactor类用于治理EventHandler（注册、删除等），并应用handle\_events实现事件循环，一直调用同步事件多路分离器（个别是内核）的多路拆散函数select，只有某个文件句柄被激活（可读/写等），select就返回（阻塞），handle\_events就会调用与文件句柄关联的事件处理器的handle\_event进行相干操作。

图5 IO多路复用

如图5所示，通过Reactor的形式，能够将用户线程轮询IO操作状态的工作对立交给handle\_events事件循环进行解决。用户线程注册事件处理器之后能够继续执行做其余的工作（异步），而Reactor线程负责调用内核的select函数查看socket状态。当有socket被激活时，则告诉相应的用户线程（或执行用户线程的回调函数），执行handle\_event进行数据读取、解决的工作。因为select函数是阻塞的，因而多路IO复用模型也被称为异步阻塞IO模型。留神，这里的所说的阻塞是指select函数执行时线程被阻塞，而不是指socket。个别在应用IO多路复用模型时，socket都是设置为NONBLOCK的，不过这并不会产生影响，因为用户发动IO申请时，数据曾经达到了，用户线程肯定不会被阻塞。

用户线程应用IO多路复用模型的伪代码形容为：

void UserEventHandler::handle_event() {    if(can_read(socket))     {        read(socket, buffer);        process(buffer);        }}{    Reactor.register(new UserEventHandler(socket));}

用户须要重写EventHandler的handle\_event函数进行读取数据、解决数据的工作，用户线程只须要将本人的EventHandler注册到Reactor即可。Reactor中handle\_events事件循环的伪代码大抵如下。

Reactor::handle_events() {    while(1)     {        sockets = select();        for(socket in sockets)         {            get_event_handler(socket).handle_event();        }    }}

事件循环不断地调用select获取被激活的socket，而后依据获取socket对应的EventHandler，执行器handle\_event函数即可。

IO多路复用是最常应用的IO模型，然而其异步水平还不够“彻底”，因为它应用了会阻塞线程的select零碎调用。因而IO多路复用只能称为异步阻塞IO，而非真正的异步IO。

四、异步IO

“真正”的异步IO须要操作系统更强的反对。在IO多路复用模型中，事件循环将文件句柄的状态事件告诉给用户线程，由用户线程自行读取数据、解决数据。而在异步IO模型中，当用户线程收到告诉时，数据曾经被内核读取结束，并放在了用户线程指定的缓冲区内，内核在IO实现后告诉用户线程间接应用即可。

异步IO模型应用了Proactor设计模式实现了这一机制。

图6 Proactor设计模式

如图6，Proactor模式和Reactor模式在结构上比拟类似，不过在用户（Client）应用形式上差异较大。Reactor模式中，用户线程通过向Reactor对象注册感兴趣的事件监听，而后事件触发时调用事件处理函数。而Proactor模式中，用户线程将AsynchronousOperation（读/写等）、Proactor以及操作实现时的CompletionHandler注册到AsynchronousOperationProcessor。AsynchronousOperationProcessor应用Facade模式提供了一组异步操作API（读/写等）供用户应用，当用户线程调用异步API后，便继续执行本人的工作。AsynchronousOperationProcessor 会开启独立的内核线程执行异步操作，实现真正的异步。当异步IO操作实现时，AsynchronousOperationProcessor将用户线程与AsynchronousOperation一起注册的Proactor和CompletionHandler取出，而后将CompletionHandler与IO操作的后果数据一起转发给Proactor，Proactor负责回调每一个异步操作的事件实现处理函数handle\_event。尽管Proactor模式中每个异步操作都能够绑定一个Proactor对象，然而个别在操作系统中，Proactor被实现为Singleton模式，以便于集中化散发操作实现事件。

图7 异步IO

如图7所示，异步IO模型中，用户线程间接应用内核提供的异步IO API发动read申请，且发动后立刻返回，继续执行用户线程代码。不过此时用户线程曾经将调用的AsynchronousOperation和CompletionHandler注册到内核，而后操作系统开启独立的内核线程去解决IO操作。当read申请的数据达到时，由内核负责读取socket中的数据，并写入用户指定的缓冲区中。最初内核将read的数据和用户线程注册的CompletionHandler分发给外部Proactor，Proactor将IO实现的信息告诉给用户线程（个别通过调用用户线程注册的实现事件处理函数），实现异步IO。

用户线程应用异步IO模型的伪代码形容为：

void UserCompletionHandler::handle_event(buffer) {    process(buffer);}{    aio_read(socket, new UserCompletionHandler);}

用户须要重写CompletionHandler的handle\_event函数进行解决数据的工作，参数buffer示意Proactor曾经筹备好的数据，用户线程间接调用内核提供的异步IO API，并将重写的CompletionHandler注册即可。

相比于IO多路复用模型，异步IO并不非常罕用，不少高性能并发服务程序应用IO多路复用模型+多线程工作解决的架构根本能够满足需要。况且目前操作系统对异步IO的反对并非特地欠缺，更多的是采纳IO多路复用模型模拟异步IO的形式（IO事件触发时不间接告诉用户线程，而是将数据读写结束后放到用户指定的缓冲区中）。Java7之后曾经反对了异步IO，感兴趣的读者能够尝试应用。

关注公众号:java宝典