关于linux:linux下多线程与并发服务器设计方案及常见问题

一、基础知识

1、一个主机的端口号为所有过程所共享，但普通用户过程绑定bind不了一些非凡端口号如20、80等。

多个过程不能同时监听listen同一个端口，会失败。当然父过程能够先listen而后fork多个子过程，多个子过程都能够accept这个sock，即争夺式响应（惊群效应）。

关注4元组是否能惟一确定一个连贯？

2、每个过程都有本人的文件描述符（包含file fd, socket fd, timer fd, event fd, signal fd），个别是1024，能够通过ulimit -n 设置，但所有过程关上的文件描述符总数有下限，跟主机的内存无关。

3、一个过程内的所有线程共享过程的文件描述符。

二、并发服务器计划：

1、循环式/迭代式( iterative )服务器

无奈充分利用多核CPU，不适宜执行工夫较长的服务，即实用于短连贯。如果是长连贯则须要在read/write之间循环，那么只能服务一个客户端。

2、并发式(concurrent)服务器

one connection per process/one connection per thread

适宜执行工夫比拟长的服务

one connection per process : 主过程每次fork 之后要敞开connfd，子过程要敞开listenfd

one connection per thread : 主线程每次accept 回来就创立一个子线程服务，因为线程共享文件描述符，故不必敞开。

3、prefork or pre threaded（容易产生“惊群”景象，即多个子过程都处于accept状态）

4、反应式( reactive )服务器 (reactor模式)（select/poll/epoll）

并发解决多个申请，实际上是在一个线程中实现。无奈充分利用多核CPU

不适宜执行工夫比拟长的服务，所以为了让客户感觉是在“并发”解决而不是“循环”解决，每个申请必须在绝对较短时间内执行。

5、reactor + thread per request（过渡计划）

6、reactor + worker thread（过渡计划）

7、reactor + thread pool（能适应密集计算）

muduo库中的/example/suduku/ 中有这样一个例子，因为数独求解是计算密集型工作。

在实践中为了reactor能疾速回到事件循环去响应申请，常常将读到的数据put到一个环形内存队列（个别内存or共享内存），而thread pool的线程则从中读取进行数据计算。

须要C/C++ Linux服务器架构师学习材料加群812855908（材料包含C/C++，Linux，golang技术，Nginx，ZeroMQ，MySQL，Redis，fastdfs，MongoDB，ZK，流媒体，CDN，P2P，K8S，Docker，TCP/IP，协程，DPDK，ffmpeg等），收费分享

8、multiple reactors（能适应更大的突发I/O）

reactors in threads（one loop per thread）

reactors in processes

一般来说一个subReactor实用于一个千兆网口

9、multiple reactors + thread pool（one loop per thread + threadpool）（突发I/O与密集计算）

subReactor能够有多个，但threadpool只有一个。

10、proactor服务器(proactor模式，基于异步I/O)

实践上proactor比reactor效率要高一些

异步I/O可能让I/O操作与计算重叠。充分利用DMA个性。

Linux异步IO

glibc aio（aio_*），有bug

kernel native aio（io_*），也不完满。目前仅反对 O_DIRECT 形式来对磁盘读写，跳过零碎缓存。要自已实现缓存，难度不小。

boost asio实现的proactor，实际上不是真正意义上的异步I/O，底层是用epoll来实现的，模仿异步I/O的。

常见并发服务器计划比拟：

三、一些常见问题

1、Linux能同时启动多少个线程？

对于 32-bit Linux，一个过程的地址空间是 4G，其中用户态能拜访 3G 左右，而一个线程的默认栈 (stack) 大小是 8M，心算可知，一个过程大概最多能同时启动 350 个线程左右。

2、多线程能进步并发度吗？

如果指的是“并发连接数”，不能。

如果单纯采纳 thread per connection 的模型，那么并发连接数大概350，这远远低于基于事件的单线程程序所能轻松达到的并发连接数（几千上万，甚至几万）。所谓“基于事件”，指的是用 IO multiplexing event loop 的编程模型，又称 Reactor 模式。

3、多线程能进步吞吐量吗？

对于计算密集型服务，不能。

如果要在一个8核的机器上压缩100个1G的文本文件，每个core的解决能力为200MB/s，那么“每次起8个过程，一个过程压缩一个文件”与“只启动一个过程（8个线程并发压缩一个文件）”，这两种形式总耗时相当，然而第二种形式能较快的拿到第一个压缩完的文件。

4、多线程能进步响应工夫吗？

能够。参考问题3

5、多线程程序日志库要求

线程平安，即多个线程能够并发写日志，两个线程的日志音讯不会呈现交错。

用一个全局的mutex爱护IO

每个线程独自写一个日志文件

前者造成全副线程抢占一个锁（串行写入）

后者有可能让业务线程阻塞在写磁盘操作上。（磁盘IO工夫比拟长）

解决办法：用一个logging线程负责收集日志音讯，并写入日志文件，其余业务线程只管往这个“日志线程”发送日志音讯（如通过BlockingQueue提供接口），这称为“异步日志”，也是一个经典的生产者消费者模型。

6、线程池大小的抉择

如果池中执行工作时，密集计算所占工夫比重为P（0<P<=1)，而零碎一共有C个CPU，为了让C个CPU跑满而不过载，线程池大小的教训公式T=C/P，即T*P=C（让CPU刚好跑满）

假如C=8，P=1.0，线程池的工作齐全密集计算，只有8个流动线程就能让CPU饱和

假如C=8，P=0.5，线程池的工作有一半是计算，一半是IO，那么T=16，也就是16个“50%忙碌的线程”能让8个CPU忙个不停。

7、线程分类

I/O线程（这里特指网络I/O）

计算线程

第三方库所用线程，如logging,又比方database