关于java:拜托你真会用线程池吗

起源：https://zhenbianshu.github.io

因为线程的创立和销毁对操作系统来说都是比拟重量级的操作，所以线程的池化在各种语言内都有实际，当然在 Java 语言中线程池是也十分重要的一部分，有 Doug Lea 大神对线程池的封装，咱们应用的时候是十分不便，但也可能会因为不理解其具体实现，对线程池的配置参数存在误会。

咱们常常在一些技术书籍或博客上看到，向线程池提交工作时，线程池的执行逻辑如下：

当一个工作被提交后，线程池首先查看正在运行的线程数是否达到外围线程数，如果未达到则创立一个线程。
如果线程池内正在运行的线程数曾经达到了外围线程数，工作将会被放到 BlockingQueue 内。
如果 BlockingQueue 已满，线程池将会尝试将线程数裁减到最大线程池容量。
如果以后线程池内线程数量曾经达到最大线程池容量，则会执行回绝策略回绝工作提交。

流程如图（摘自美团技术博客）：

流程形容没有问题，但如果某些点未通过斟酌，容易导致误会，而且形容中的情境太理想化，如果配置时不思考运行时环境，也会呈现一些十分诡异的问题。

线程池内线程数量小于等于 coreSize 的局部我称为外围池，外围池是线程池的常驻局部，外部的线程个别不会被销毁，咱们提交的工作也应该绝大部分都由外围池内的线程来执行。

无关外围池最常见的一个误区是没搞清楚外围池内线程的创立机会，这个问题，我感觉甩 10% 的锅给 Doug Lea 大神应该不算过分，因为他在文档里写道“If fewer than corePoolSize threads are running, try to start a new thread with the given command as its first task”，其中 "running" 这个词就比拟有歧义，因为在咱们了解里 running 是指以后线程已被操作系统调度，领有操作系统工夫分片，或者被了解为正在执行某个工作。

基于以上的了解，咱们很容易就认为如果工作的 QPS 非常低，线程池内线程数量永远也达不到 coreSize。即如果咱们配置了 coreSize 为 1000，实际上 QPS 只有 1，单个工作耗时 1s，那么外围池大小就会始终是 1，即便有流量抖动，外围池也只会被扩容到 3。因为一个线程每秒执行执行一个工作，刚好不必创立新线程就足以应答 1QPS。

但如果简略设计一个测试，应用 jstack 打印出线程栈并数一下线程池内线程数量，会发现线程池内的线程数会随着工作的提交而逐步增大，直到达到 coreSize。

因为外围池的设计初衷是想它能作为常驻池，承载日常流量，所以它应该被尽快初始化，于是线程池的逻辑是在没有达到 coreSize 之前，每一个工作都会创立一个新的线程，对应的源码为：

public void execute(Runnable command) {
    ...
    int c = ctl.get();
    if (workerCountOf(c) < corePoolSize) {// workerCountOf() 办法是获取线程池内线程数量
        if (addWorker(command, true))
            return;
        c = ctl.get();}
    ...
}

而文档里的 running 状态也指的是线程曾经被创立，咱们也晓得线程被创立后，会在一个 while 循环里尝试从 BlockingQueue 里获取并执行工作，说它正在 running 也不为过。

基于此，咱们对一些高并发服务进行的预热，其实并不是冀望 JVM 能对热点代码做 JIT 等优化，对线程池、连接池和本地缓存的预热才是重点。

BlockingQueue 是线程池内的另一个重要组件，首先它是线程池”生产者 - 消费者”模型的两头媒介，另外它也能够为大量突发的流量做缓冲，但了解和配置它也常常会出错。

最常见的谬误是不了解线程池的运行模型。首先要明确的一点是线程池并没有精确的调度性能，即它无奈感知有哪些线程是处于闲暇状态的，并把提交的工作派发给闲暇线程。

线程池采纳的是”生产者 - 消费者”模式，除了触发线程创立的工作（线程的 firstTask）不会入 BlockingQueue 外，其余工作都要进入到 BlockingQueue，期待线程池内的线程生产，而工作会被哪个线程生产到齐全取决于操作系统的调度。

对应的生产者源码如下：

public void execute(Runnable command) {
    ...
    if (isRunning(c) && workQueue.offer(command)) {isRunning() 是判断线程池解决戚状态
        int recheck = ctl.get();
        if (! isRunning(recheck) && remove(command))
            reject(command);
        else if (workerCountOf(recheck) == 0)
            addWorker(null, false);
    }
    ...
}

对应的消费者源码如下：

private Runnable getTask() {for (;;) {
        ...
        Runnable r = timed ?
            workQueue.poll(keepAliveTime, TimeUnit.NANOSECONDS) :
            workQueue.take();
        if (r != null)
            return r;
        ...
    }
}

基于”生产者 - 消费者”模型，咱们可能会认为如果配置了足够的消费者，线程池就不会有任何问题。其实不然，咱们还必须思考并发量这一因素。

构想以下状况：有 1000 个工作要同时提交到线程池内并发执行，在线程池被初始化实现的状况下，它们都要被放到 BlockingQueue 内期待被生产，在极限状况下，生产线程一个工作也没有执行实现，那么这 1000 个申请须要同时存在于 BlockingQueue 内，如果配置的 BlockingQueue Size 小于 1000，多余的申请就会被回绝。

那么这种极限状况产生的概率有多大呢？答案是十分大，因为操作系统对 I/O 线程的调度优先级是十分高的，个别咱们的工作都是由 I/O 的筹备或实现（如 tomcat 受理了 http 申请）开始的，所以很有可能被调度到的都是 tomcat 线程，它们在始终往线程池内提交申请，而消费者线程却调度不到，导致申请沉积。

我负责的服务就产生过这种申请被异样回绝的状况，压测时 QPS 2000，均匀响应工夫为 20ms，失常状况下，40 个线程就能够均衡生产速度，不会沉积。但在 BlockingQueue Size 为 50 时，即便线程池 coreSize 为 1000，还会呈现申请被线程池回绝的状况。

这种状况下，BlockingQueue 的重要的意义就是它是一个能长时间存储工作的容器，能以很小的代价为线程池提供缓冲。依据上文可知，线程池能反对 BlockingQueue Size 个工作同时提交，咱们把最大同时提交的工作个数，称为并发量，配置线程池时，理解并发量异样重要。

咱们罕用 QPS 来掂量服务压力，所以配置线程池参数时也常常参考这个值，但有时候 QPS 和并发量有时候相关性并没有那么高，QPS 还要 搭配工作执行工夫 来推算 峰值并发量。

比方申请距离严格雷同的接口，均匀 QPS 为 1000，它的并发量峰值是多少呢？咱们并没有方法估算，因为如果工作执行工夫为 1ms，那么它的并发量只有 1；而如果工作执行工夫为 1s，那么并发量峰值为 1000。

可是晓得了工作执行工夫，就能算出并发量了吗？也不能，因为如果申请的距离不同，可能 1min 内的申请都在一秒内发过来，那这个并发量还要乘以 60，所以下面才说晓得了 QPS 和工作执行工夫，并发量也只能靠推算。

计算并发量，我个别的经验值是 QPS* 均匀响应工夫，再留上一倍的冗余，但如果业务重要的话，BlockingQueue Size 设置大一些也不妨（1000 或以上），毕竟每个工作占用的内存量很无限。

除了下面提到的各种状况下，GC 也是一个很重要的影响因素。

咱们都晓得 GC 是 Stop the World 的，但这里的 World 指的是 JVM，而一个申请 I/O 的筹备和实现是操作系统在进行的，JVM 进行了，但操作系统还是会失常受理申请，在 JVM 复原后执行，所以 GC 是会沉积申请的。

上文中提到的并发量计算肯定要思考到 GC 工夫内沉积的申请同时被受理的状况，沉积的申请数能够通过 QPS*GC 工夫 来简略得出，还有肯定要记得留出冗余。

除此之外，配置线程池参数时，肯定要思考业务场景。

如果接口的流量大部分来自于一个定时程序，那么均匀 QPS 就没有了任何意义，线程池设计时就要思考给 BlockingQueue 的 Size 设置一个大一些的值；而如果流量十分不均匀，一天内只有某一小段时间才有高流量的话，而且线程资源缓和的状况下，就要思考给线程池的 maxSize 留下较大的冗余；在流量尖刺显著而响应工夫不那么敏感时，也能够设置较大的 BlockingQueue，容许工作进行肯定水平的沉积。

当然除了教训和计算外，对服务做定时的压测无疑更能帮忙把握服务实在的状况。

总结线程池的配置时，我最大的感触是肯定要读源码！读源码！读源码！

只看一些书和文章的总结是无奈吃透一些重要概念的，即便搞懂了大部分也很容易会在一些角落踩坑。

深刻了解原理后，面对简单状况，才有灵便配置的能力。

参考文献：

https://tech.meituan.com/2020…
近期热文举荐：

1.600+ 道 Java 面试题及答案整顿(2021 最新版)

2. 终于靠开源我的项目弄到 IntelliJ IDEA 激活码了，真香！

3. 阿里 Mock 工具正式开源，干掉市面上所有 Mock 工具！

4.Spring Cloud 2020.0.0 正式公布，全新颠覆性版本！

5.《Java 开发手册（嵩山版）》最新公布，速速下载！

感觉不错，别忘了顺手点赞 + 转发哦！

关于java:拜托你真会用线程池吗

前言

外围池

线程创立机会的误会

创立过程

BlockingQueue

运行模型

BlockingQueue 的缓冲作用

并发量的计算

思考运行时

GC

业务峰值

小结

Just My Socks（注册教程内含优惠码）

关于java:拜托你真会用线程池吗

前言

外围池

线程创立机会的误会

创立过程

BlockingQueue

运行模型

BlockingQueue 的缓冲作用

并发量的计算

思考运行时

GC

业务峰值

小结

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）