一文让你明白平均负载

jiezi

6 年前

1. 什么是平均负载
首先，我们先理解下什么是平均负载。
平均负载是指单位时间内，系统处于可运行状态和不可中断状态的平均进程数，也就是平均活跃进程数，它和 CPU 使用率并没有直接关系。（为什么和 CPU 使用率没直接关系，这个我后面说明）
那么问题来了，可运行状态和不可中断状态又是什么东西呢？
所谓可运行状态的进程，是指正在使用 CPU 或者正在等待 CPU 的进程，也就是我们常用 ps 命令看到的，处于 R 状态（Running 或 Runnable）的进程。
而不可中断状态的进程，则是正处于内核态关键流程中的进程，并且这些流程是不可打断的，比如最常见的是等待硬件设备的 I/O 响应，也就是我们在 ps 命令中看到的 D 状态（Uninterruptible Sleep，也称为 Disk Sleep）的进程。
比如，当一个进程向磁盘读写数据时，为了保证数据的一致性，在得到磁盘回复前，它是不能被其他进程或者中断打断的，这个时候的进程就处于不可中断状态。如果此时的进程被打断了，就容易出现磁盘数据与进程数据不一致的问题。
所以，不可中断状态实际上是系统对进程和硬件设备的一种保护机制。
明白了什么是平均负载后，那么自然就是要知道怎么用了。
2. 如何查看平均负载
当我们使用 uptime 命令时，会出现以下结果（这是我本机的结果，每个人的机器情况不一样）
$ uptime
02:34:03 up 2 days, 20:14, 1 user, load average: 0.63, 0.83, 0.88
对应解释：
02:34:03 // 当前时间
up 2 days, 20:14 // 系统运行时间
1 user // 正在登录用户数

最后三个数字呢，依次则是过去 1 分钟、5 分钟、15 分钟的平均负载（Load Average）。
明白了怎么看平均负载后，那么平均负载到底是多少才是合理的呢？
3. 平均负载的合理值
当平均负载高于 CPU 数量 70% 的时候。就应该分析排查负载高的问题了。一旦负载过高，就可能导致进程响应变慢，进而影响服务的正常功能。
但 70% 这个数字并不是绝对的，最推荐的方法，还是把系统的平均负载监控起来，然后根据更多的历史数据，判断负载的变化趋势（可从 uptime 得到的三个数字分析）。当发现负载有明显升高趋势时，比如说负载翻倍了，你再去做分析和调查。
平均负载在最理想的情况下，就是每个 CPU 上都刚好运行着一个进程，这样每个 CPU 都得到了充分利用。
比如当平均负载为 2 时，意味着什么呢？

在只有 2 个 CPU 的系统上，意味着所有的 CPU 都刚好被完全占用。
在 4 个 CPU 的系统上，意味着 CPU 有 50% 的空闲。
而在只有 1 个 CPU 的系统中，则意味着有一半的进程竞争不到 CPU。

好了，关于平均负载的基本知识差不多就是这样。现在，我来填下开头的坑 —— 为什么和 CPU 使用率没直接关系呢？
4. 平均负载与 CPU 使用率
在文章最开始的时候就有提到，平均负载是指单位时间内，处于可运行状态和不可中断状态的平均进程数。所以，它不仅包括了正在使用 CPU 的进程，还包括等待 CPU 和等待 IO 的进程。
而 CPU 使用率，是单位时间内 CPU 繁忙情况的统计，跟平均负载并不一定完全对应。比如：

CPU 密集型进程，使用大量 CPU 会导致平均负载升高，此时这两者是一致的。
I/O 密集型进程，等待 I/O 也会导致平均负载升高，但 CPU 使用率不一定很高。
大量等待 CPU 的进程调度也会导致平均负载升高，此时的 CPU 使用率也会比较高

以上，就是文章的全部内容了，如果觉得有帮助的话，那就点个赞吧
本文整理自极客时间：《Linux 性能优化实战》
**PS：本文原创发布于微信公众号「不只 Java」，后台回复以下关键字获取经典必读书籍：Java、MySQL、Redis、Linux、mq、数据结构、设计模式、编程思想、架构。**
公众号专注分享 Java 干货、读书笔记、成长思考。