前言

做为一个性能测试工程师，每当咱们发现计算机变慢的时候，咱们通常的规范姿态就是执行 uptime 或 top 命令，来理解零碎的负载状况。

比方像上面这样，我在命令行里输出了 uptime 命令，零碎会返回一行信息。

appletekimbp:~ apple$ uptime
20
:
44
up
21
days,
6
:
41
,
2
users, load averages:
2.85

2.33

2.91
但我想问的是，各位同学晓得以上每列输入的含意吗？

20
:
44

以后工夫

up
21
days,
6
:
41

零碎运行工夫

2
users

正在登录用户数

零碎的均匀负载，别离是1分钟、5分钟、15分钟内零碎的均匀负载

load averages:
2.85

2.33

2.91

这行信息的后半局部，显示 “load average”，它的意思是”零碎的均匀负载”，外面有三个数字，咱们能够从中判断零碎负载是大还是小。

什么是零碎均匀负载？

我猜肯定会有同学会说，均匀负载不就是单位工夫的 CPU 使用率吗？下面 2.85，就代表 CPU 使用率是 285%。其实不是这样的。

CPU 负载值在 Linux 零碎中示意正在运行，处于可运行状态的均匀作业数（读取一组与流程执行线程对应的机器语言的程序指令），或者十分重要，休眠但不可中断（不可交织的休眠状态））。也就是说，要计算 CPU 负载的值，只思考正在运行或期待调配 CPU 工夫的过程。不思考失常的休眠过程（休眠状态），僵尸或进行的过程。
简略来说，均匀负载是指单位工夫内，零碎处于可运行状态和不可中断状态的均匀过程数，也就是均匀沉闷过程数，它和 CPU 使用率并没有间接关系。

过程状态代码 R 正在运行或可运行（在运行队列中） D 不间断休眠（通常为IO） S 可中断休眠（期待事件实现） Z 生效/僵尸，终止但未被其父 T 进行，由作业控制进行信号或因为它被追踪 […]

这里先解释下，可运行状态和不可中断状态。

可运行状态的过程，指的是正在应用CPU或者正在期待CPU的过程，也就是咱们罕用 ps 命令看到处于 R 状态（Running 或 Runnable）的过程。

不可中断状态的过程，指的是正处于内核态要害流程中的过程，并且这些流程是不可打断的，比方常见是期待硬件设施的 I/O 响应。也就是咱们在Ps 命令看到的D状态(Uninterruptible Sleep，也称为 Disk Sleep）的过程。比方，当一个过程向磁盘读写数据时，为了保证数据的一致性，在失去磁盘回复前，它是不能被其余过程或者中断打断的，这个工夫的过程就处于不可中断状态。如果此时的过程被打断，就容易呈现磁盘数据与过程数据不统一的问题。

所以，不可中断状态实际上是系统对过程和硬件设施的一种爱护机制。

因而，咱们能够简略了解为，均匀负载其实就是均匀沉闷过程数。均匀沉闷过程数，直观上的了解就是单位工夫内的沉闷过程数。既然均匀的是是沉闷过程数，那么现实的是，每个CPU上都刚好运行着一个过程，这样每个CPU都失去了充分利用。

以下是单核处理器计算机中不同负载值的含意：

0.00：没有任何作业正在运行或期待 CPU 执行，即 CPU 齐全闲暇。因而，如果正在运行的程序（过程）须要执行工作，它会向 CPU 申请操作系统，并立刻为该过程调配 CPU 工夫，因为没有其余过程在竞争它。
0.50：没有任何作业在期待，但 CPU 正在解决以前的作业，并且它正在以 50％的容量进行解决。在这种状况下，操作系统还能够立刻将 CPU 工夫调配给其余过程，而无需将其置于放弃状态。
1.00：队列中没有作业，但 CPU 正在以 100％的容量解决先前的作业，因而如果新过程申请 CPU 工夫，则必须将其保留到另一个作业实现或以后 CPU 插槽工夫（例如，CPU tick）到期，操作系统决定哪一个是下一个给定的过程优先级。
1.50：CPU 工作在其容量的 100％，15个工作中有5个申请CPU工夫，即 33.33％，必须排队期待其他人耗尽他们调配的工夫。因而，一旦超过1.0 的阈值，就能够说零碎过载，因为它不能立刻解决所申请的 100％的工作。
那么很显然，”load average”的值越低，比方等于0.2或0.3，就阐明服务器的工作量越小，零碎负载比拟低。

一个类比

下面还看太懂怎么办？没事，咱们来看一个简略的类比例子。

先假如最简略的状况，你的计算机只有一个 CPU，所有的运算都必须由这个 CPU 来实现。

那么，咱们无妨把这个 CPU 设想成一座大桥，桥上只有一根车道，所有车辆都必须从这根车道上通过。（很显然，这座桥只能单向通行。）

零碎负载为 0，意味着大桥上一辆车也没有。

零碎负载为 0.5，意味着大桥一半的路段有车。

零碎负载为 1.0，意味着大桥的所有路段都有车，也就是说大桥曾经”满”了。然而必须留神的是，直到此时大桥还是能顺畅通行的。

零碎负载为 1.7，意味着车辆太多了，大桥曾经被占满了（100%），前面等着上桥的车辆为桥面车辆的 70%。以此类推，零碎负载 2.0，意味着期待上桥的车辆与桥面的车辆一样多；零碎负载 3.0，意味着期待上桥的车辆是桥面车辆的 2 倍。总之，当零碎负载大于 1，前面的车辆就必须期待了；零碎负载越大，过桥就必须等得越久。

CPU 的零碎负载，基本上等同于下面的类比。大桥的通行能力，就是CPU 的最大工作量；桥梁上的车辆，就是一个个期待 CPU 解决的过程（process）。

如果CPU 每分钟最多解决100个过程，那么零碎负载0.2，意味着CPU在这 1 分钟里只解决 20 个过程；零碎负载 1.0，意味着 CPU 在这 1 分钟里正好解决 100 个过程；零碎负载 1.7，意味着除了 CPU 正在解决的100 个过程以外，还有 70 个过程正排队等着CPU解决。

为了计算机顺畅运行，零碎负载最好不要超过 1.0，这样就没有过程须要期待了，所有过程都能第一工夫失去解决。很显然，1.0 是一个要害值，超过这个值，零碎就不在最佳状态了，你要入手干涉了。

多处理器和多核零碎

在具备多个处理器或外围（多个逻辑 CPU）的零碎中，CPU 负载值的含意取决于零碎中存在的处理器数量。因而，具备4 个处理器的计算机在达到4.00的负载之前将不会以100％应用，因而在解释由 top，htop 或失常运行工夫等命令提供的3个负载值时，你必须要做的第一件事就是将它们离开。零碎中存在的逻辑CPU数量，并从中得出结论。
举个例子，如果你的计算机装了 2 个 CPU，会产生什么状况呢？ 2 个 CPU，意味着计算机的解决能力翻了一倍，可能同时解决的过程数量也翻了一倍。还是用大桥来类比，两个 CPU 就意味着大桥有两根车道了，通车能力翻倍了

所以，2 个CPU表明零碎负载能够达到 2.0，此时每个 CPU 都达到 100%的工作量。推广开来，n 个 CPU 的计算机，可承受的零碎负载最大为n.0。

芯片厂商往往在一个 CPU 外部，蕴含多个CPU外围，这被称为多核CPU。

在零碎负载方面，多核 CPU 与多 CPU 成果相似，所以思考零碎负载的时候，必须思考这台计算机有几个 CPU、每个 CPU 有几个外围。而后，把零碎负荷除以总的外围数，只有每个外围的负荷不超过 1.0，就表明计算机失常运行。怎么晓得PC有多少个 CPU 外围呢？

CPU使用率

如果咱们察看在给定工夫距离内通过 CPU 的不同过程，则利用率百分比将示意绝对于 CPU 执行与每个过程绝对应的指令的那个工夫距离的工夫局部。但这种计算只运行的过程，而不是那些正在期待，无论它们是在队列（可运行状态）还是休眠但不可中断（例如在期待输出/输入操作的完结）被认为。因而，这个指标能够让咱们理解哪些过程最大水平地挤压 CPU，然而如果零碎状态过载或者未充分利用，则不能给出实在的零碎状态图。
事实工作中，咱们常常容易把均匀负载和 CPU 使用率混同，从下面咱们晓得均匀负载是指单位工夫内，处于可运行状态和不可中断状态的过程数。所以，它不仅包含正在应用 CPU 的过程，还包含期待 CPU 和期待I/O 的过程。而 CPU使用率，从下面的解释咱们晓得是单位工夫内忙碌水平，跟均匀负载并不一定齐全对应。比方：

CPU 密集型过程，应用大量 CPU 会导致均匀负载升高，这时候两者是统一的。
I/O 密集型过程，期待 I/O 也会导致均匀负载升高，但 CPU 使用率不肯定很高。
大量期待 CPU 的过程调度也会导致均匀负载很高，此时的 CPU 使用率也会比拟高。
留神输出/输入（I / O）操作

在本文反复强调了不间断休眠状态十分重要（第一张图中的D），因为有时你能够在计算机中找到十分高的负载值，然而不同的运行过程使用率绝对较低。如果你不思考这种状态，你会发现状况莫名其妙，你将不晓得如何解决它。当过程期待某个资源的开释并且其执行不能被中断时，例如当它期待不可中断的 I/O 操作时，过程处于此状态实现（并非所有都是不可中断的）。通常，这种状况是因为磁盘故障，网络文件系统（如NFS故障）或大量应用十分慢的设施（例如USB 1.0 Pendrive）而产生的。

在这种状况下，咱们将不得不应用代替工具，如 iostat 或 iotop，它们将批示哪些过程正在执行更多的 I/O 操作，以便咱们能够杀死这些过程或为它们调配较少的优先级（nice命令）可能为其余更要害的过程调配更多的CPU 工夫。

一些技巧

零碎过载并超过1.0的负载值有时不是问题，因为即便有一些提早，CPU也会解决队列中的作业，负载将再次升高到1.0以下的值。然而如果零碎的继续负载值大于1，则意味着它无奈排汇执行中的所有负载，因而其响应工夫将减少，零碎将变得迟缓且无响应。高于1的高值，尤其是最初5分钟和15分钟的负载平均值是一个显著的症状，要么咱们须要改良计算机的硬件，通过限度用户能够对系统的应用来节俭更少的资源，或者除以多个类似节点之间的负载。

因而，咱们提出以下倡议：

=0.70：没有任何反馈，但有必要监控 CPU 负载。如果在一段时间内放弃这种状态，就必须在事件变得更糟之前进行考察。
=1.00：存在问题，您必须找到并修复它，否则零碎负载的次要顶峰将导致您的应用程序变慢或无响应。
=3.00：你的零碎变得十分慢。甚至很难从命令行操作它来试图找出问题的起因，因而修复问题须要的工夫比咱们之前采取的口头要长。你冒的危险是零碎会更饱和并且必定会解体。
=5.00：你可能无奈复原零碎。你能够期待奇观自发升高负载，或者如果你晓得产生了什么并且能够负担得起，你能够在控制台中启动 kill-9<process_name> 之类的命令，并期求它运行在某些时候，以加重零碎负荷并从新取得其控制权。否则，你必定别无选择，只能重新启动计算机。

关于linux:性能基础之理解Linux系统平均负载和CPU使用率

以后工夫

零碎运行工夫

正在登录用户数

零碎的均匀负载，别离是1分钟、5分钟、15分钟内零碎的均匀负载

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于linux:性能基础之理解Linux系统平均负载和CPU使用率

以后工夫

零碎运行工夫

正在登录用户数

零碎的均匀负载，别离是1分钟、5分钟、15分钟内零碎的均匀负载

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复