LINUX-如何查看系统负载

jiezi

5 年前

操作系统的负载状态，反映了应用程序的资源使用情况，从中能找出应用程序优化的瓶颈所在。

系统平均负载，是指处于运行或不可打扰状态的进程的平均数。
处于运行，表示运行态，占用 CPU，或就绪态，等待 CPU 调度。
不可打扰，表示阻塞，正在等待 I /O

在 Linux 系统中，要查看负载情况一般使用 uptime 命令（w 命令和 top 命令也行）

一、uptime 命令

$ uptime
16:33:56 up 69 days,  5:10,  1 user,  load average: 0.14, 0.24, 0.29

以上信息的解析如下：

16:33:56 : 当前时间 up 69 days, 5:10 : 系统运行了 69 天 5 小时 10 分 1 user :
当前有 1 个用户登录了系统 load average: 0.14, 0.24, 0.29 :
系统在过去 1 分钟内，5 分钟内，15 分钟内的平均负载 load average: 0.14, 0.24, 0.29 :
系统在过去 1 分钟内，5 分钟内，15 分钟内的平均负载

平均负载解析

查看逻辑 CPU 核心数：

$ grep 'model name' /proc/cpuinfo | wc -l
1

运行结果表示，有 1 个逻辑 CPU 核心。以 1 个 CPU 核心为例，假设 CPU 每分钟最多处理 100 个进程 –

load=0，没有进程需要 CPU
load=0.5，CPU 处理了 50 个进程
load=1, CPU 处理了 100 个进程，这时 CPU 已被占满，但系统还是能顺畅运作的
load=1.5, CPU 处理了 100 个进程，还有 50 个进程正在排除等着 CPU 处理，这时，CPU 已经超负荷工作了

为了系统顺畅运行，load 值最好不要超过 1.0，这样就没有进程需要等待了，所有进程都能第一时间得到处理。

很显然，1.0 是一个关键值，超过这个值，系统就不在最佳状态了。一般 0.7 是一个比较理想的值。

另外，load 值的健康状态还跟系统 CPU 核心数相关，如果 CPU 核心数为 2，那么 load 值健康值应该为 2，以此类推。
评价系统的负载一般采用 15 分钟内的那个平均负载值。

二、w 命令

$ w
 17:47:40 up 69 days,  6:24,  1 user,  load average: 0.46, 0.26, 0.25
USER     TTY      FROM              LOGIN@   IDLE   JCPU   PCPU WHAT
lvinkim  pts/0    14.18.144.2      15:55    0.00s  0.02s  0.00s w

第 1 行 : 与 uptime 一相同。
第 2 行以下，当前登录用户的列表。

三、top 命令

$ top
top - 17:51:23 up 69 days,  6:28,  1 user,  load average: 0.31, 0.30, 0.26
Tasks:  99 total,   1 running,  98 sleeping,   0 stopped,   0 zombie
Cpu(s):  2.3%us,  0.2%sy,  0.0%ni, 97.4%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Mem:   1922244k total,  1737480k used,   184764k free,   208576k buffers
Swap:        0k total,        0k used,        0k free,   466732k cached

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND                                                                
    1 root      20   0 19232 1004  708 S  0.0  0.1   0:01.17 init                                                                    
    2 root      20   0     0    0    0 S  0.0  0.0   0:00.01 kthreadd                                                                
...

第 1 行 : 与 uptime 一相同。

第 2 行 : 进程数信息。

Tasks: 99 total : 总共有 99 个进程
1 running : 1 个进程正在占用 CPU
98 sleeping : 98 个睡眠进程
0 stopped : 0 个停止的进程
0 zombie : 0 个僵尸进程

第 3 行 : CPU 使用率

us (user): 非 nice 用户进程占用 CPU 的比率
sy (system): 内核、内核进程占用 CPU 的比率
ni (nice): 用户进程空间内改变过优先级的进程占用 CPU 比率
id (idle): CPU 空闲比率，如果系统缓慢而这个值很高，说明系统慢的原因不是 CPU 负载高
wa (iowait): CPU 等待执行 I / O 操作的时间比率，该指标可以用来排查磁盘 I / O 的问题，通常结合 wa 和 id 判断
hi (Hardware IRQ): CPU 处理硬件中断所占时间的比率
si (Software Interrupts): CPU 处理软件中断所占时间的比率
st (steal): 流逝的时间，虚拟机中的其他任务所占 CPU 时间的比率

需要注意的一些情形：

用户进程 us 占比高，I/ O 操作 wa 低：说明系统缓慢的原因在于进程占用大量 CPU，通常还会伴有教低的空闲比率 id，说明 CPU 空转时间很少。
I/ O 操作 wa 低，空闲比率 id 高：可以排除 CPU 资源瓶颈的可能。
I/ O 操作 wa 高：说明 I / O 占用了大量的 CPU 时间，需要检查交换空间的使用，交换空间位于磁盘上，性能远低于内存，当内存耗尽开始使用交换空间时，将会给性能带来严重影响，所以对于性能要求较高的服务器，一般建议关闭交换空间。另一方面，如果内存充足，但 wa 很高，说明需要检查哪个进程占用了大量的 I / O 资源。

更多负载情形，可在实际中灵活判断。

四、iostat 命令

iostat 命令可以查看系统分区的 IO 使用情况

$ iostat 
Linux 2.6.32-573.22.1.el6.x86_64 (sgs02)   01/20/2017     _x86_64_   (1 CPU)

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           2.29    0.00    0.25    0.04    0.00   97.41

Device:            tps   Blk_read/s   Blk_wrtn/s   Blk_read   Blk_wrtn
vda               1.15         3.48        21.88   21016084  131997520

一些值得注意的 IO 指标 :

Device : 磁盘名称
tps : 每秒 I / O 传输请求量
Blk_read/s : 每秒读取多少块，查看块大小可参考命令 tune2fs
Blk_wrtn/s : 每秒写取多少块
Blk_read : 一共读了多少块
–Blk_wrtn : 一共写了多少块

五、iotop 命令

iotop 命令类似于 top 命令，但是显示的是各个进程的 I / O 情况，对于定位 I / O 操作较重的进程有比较大的作用。

# iotop
Total DISK READ: 0.00 B/s | Total DISK WRITE: 774.52 K/s
  TID  PRIO  USER     DISK READ  DISK WRITE  SWAPIN     IO>    COMMAND                                                                
  272 be/3 root        0.00 B/s    0.00 B/s  0.00 %  4.86 % [jbd2/vda1-8]
 9072 be/4 mysql       0.00 B/s  268.71 K/s  0.00 %  0.00 % mysqld
 5058 be/4 lvinkim     0.00 B/s    3.95 K/s  0.00 %  0.00 % php-fpm: pool www
    1 be/4 root        0.00 B/s    0.00 B/s  0.00 %  0.00 % init

可以看到不同任务的读写强度。

六、sysstat 工具

很多时候当检测到或者知道历史的高负载状况时，可能需要回放历史监控数据，这时 sar 命令就派上用场了，sar 命令同样来自 sysstat 工具包，可以记录系统的 CPU 负载、I/ O 状况和内存使用记录，便于历史数据的回放。

sysstat 的配置文件在 /etc/sysconfig/sysstat 文件，历史日志的存放位置为 /var/log/sa
统计信息都是每 10 分钟记录一次，每天的 23:59 会分割统计文件，这些操作的频率都在 /etc/cron.d/sysstat 文件配置。

七、sar 命令

使用 sar 命令查看当天 CPU 使用：

$ sar
Linux 2.6.32-431.23.3.el6.x86_64 (szs01)   01/20/2017     _x86_64_   (1 CPU)

10:50:01 AM     CPU     %user     %nice   %system   %iowait    %steal     %idle
11:00:01 AM     all      0.45      0.00      0.22      0.40      0.00     98.93
Average:        all      0.45      0.00      0.22      0.40      0.00     98.93

使用 sar 命令查看当天内存使用：

$ sar -r
Linux 2.6.32-431.23.3.el6.x86_64 (szs01)   01/20/2017     _x86_64_   (1 CPU)

10:50:01 AM kbmemfree kbmemused  %memused kbbuffers  kbcached  kbcommit   %commit
11:00:01 AM     41292    459180     91.75     44072    164620    822392    164.32
Average:        41292    459180     91.75     44072    164620    822392    164.32

使用 sar 命令查看当天 IO 统计记录：

$ sar -b
Linux 2.6.32-431.23.3.el6.x86_64 (szs01)   01/20/2017     _x86_64_   (1 CPU)

10:50:01 AM       tps      rtps      wtps   bread/s   bwrtn/s
11:00:01 AM      3.31      2.14      1.17     37.18     16.84
Average:         3.31      2.14      1.17     37.18     16.84

更多 sar 用法，请 man sar。