操作系统的负载状态,反映了应用程序的资源使用情况,从中能找出应用程序优化的瓶颈所在。
系统平均负载,是指处于运行或不可打扰状态的进程的平均数。
处于运行,表示运行态,占用 CPU,或就绪态,等待 CPU 调度。
不可打扰,表示阻塞,正在等待 I /O
在 Linux 系统中,要查看负载情况一般使用 uptime 命令(w 命令和 top 命令也行)
一、uptime 命令
$ uptime
16:33:56 up 69 days, 5:10, 1 user, load average: 0.14, 0.24, 0.29
以上信息的解析如下:
- 16:33:56 : 当前时间 up 69 days, 5:10 : 系统运行了 69 天 5 小时 10 分 1 user :
- 当前有 1 个用户登录了系统 load average: 0.14, 0.24, 0.29 :
- 系统在过去 1 分钟内,5 分钟内,15 分钟内的平均负载 load average: 0.14, 0.24, 0.29 :
- 系统在过去 1 分钟内,5 分钟内,15 分钟内的平均负载
平均负载解析
查看逻辑 CPU 核心数:
$ grep 'model name' /proc/cpuinfo | wc -l
1
运行结果表示,有 1 个逻辑 CPU 核心。以 1 个 CPU 核心为例,假设 CPU 每分钟最多处理 100 个进程 –
- load=0,没有进程需要 CPU
- load=0.5,CPU 处理了 50 个进程
- load=1, CPU 处理了 100 个进程,这时 CPU 已被占满,但系统还是能顺畅运作的
- load=1.5, CPU 处理了 100 个进程,还有 50 个进程正在排除等着 CPU 处理,这时,CPU 已经超负荷工作了
为了系统顺畅运行,load 值最好不要超过 1.0,这样就没有进程需要等待了,所有进程都能第一时间得到处理。
很显然,1.0 是一个关键值,超过这个值,系统就不在最佳状态了。一般 0.7 是一个比较理想的值。
另外,load 值的健康状态还跟系统 CPU 核心数相关,如果 CPU 核心数为 2,那么 load 值健康值应该为 2,以此类推。
评价系统的负载一般采用 15 分钟内的那个平均负载值。
二、w 命令
$ w
17:47:40 up 69 days, 6:24, 1 user, load average: 0.46, 0.26, 0.25
USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
lvinkim pts/0 14.18.144.2 15:55 0.00s 0.02s 0.00s w
第 1 行 : 与 uptime 一相同。
第 2 行以下,当前登录用户的列表。
三、top 命令
$ top
top - 17:51:23 up 69 days, 6:28, 1 user, load average: 0.31, 0.30, 0.26
Tasks: 99 total, 1 running, 98 sleeping, 0 stopped, 0 zombie
Cpu(s): 2.3%us, 0.2%sy, 0.0%ni, 97.4%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Mem: 1922244k total, 1737480k used, 184764k free, 208576k buffers
Swap: 0k total, 0k used, 0k free, 466732k cached
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
1 root 20 0 19232 1004 708 S 0.0 0.1 0:01.17 init
2 root 20 0 0 0 0 S 0.0 0.0 0:00.01 kthreadd
...
第 1 行 : 与 uptime 一相同。
第 2 行 : 进程数信息。
- Tasks: 99 total : 总共有 99 个进程
- 1 running : 1 个进程正在占用 CPU
- 98 sleeping : 98 个睡眠进程
- 0 stopped : 0 个停止的进程
- 0 zombie : 0 个僵尸进程
第 3 行 : CPU 使用率
- us (user): 非 nice 用户进程占用 CPU 的比率
- sy (system): 内核、内核进程占用 CPU 的比率
- ni (nice): 用户进程空间内改变过优先级的进程占用 CPU 比率
- id (idle): CPU 空闲比率,如果系统缓慢而这个值很高,说明系统慢的原因不是 CPU 负载高
- wa (iowait): CPU 等待执行 I / O 操作的时间比率,该指标可以用来排查磁盘 I / O 的问题,通常结合 wa 和 id 判断
- hi (Hardware IRQ): CPU 处理硬件中断所占时间的比率
- si (Software Interrupts): CPU 处理软件中断所占时间的比率
- st (steal): 流逝的时间,虚拟机中的其他任务所占 CPU 时间的比率
需要注意的一些情形:
- 用户进程 us 占比高,I/ O 操作 wa 低:说明系统缓慢的原因在于进程占用大量 CPU,通常还会伴有教低的空闲比率 id,说明 CPU 空转时间很少。
- I/ O 操作 wa 低,空闲比率 id 高:可以排除 CPU 资源瓶颈的可能。
- I/ O 操作 wa 高:说明 I / O 占用了大量的 CPU 时间,需要检查交换空间的使用,交换空间位于磁盘上,性能远低于内存,当内存耗尽开始使用交换空间时,将会给性能带来严重影响,所以对于性能要求较高的服务器,一般建议关闭交换空间。另一方面,如果内存充足,但 wa 很高,说明需要检查哪个进程占用了大量的 I / O 资源。
更多负载情形,可在实际中灵活判断。
四、iostat 命令
iostat 命令可以查看系统分区的 IO 使用情况
$ iostat
Linux 2.6.32-573.22.1.el6.x86_64 (sgs02) 01/20/2017 _x86_64_ (1 CPU)
avg-cpu: %user %nice %system %iowait %steal %idle
2.29 0.00 0.25 0.04 0.00 97.41
Device: tps Blk_read/s Blk_wrtn/s Blk_read Blk_wrtn
vda 1.15 3.48 21.88 21016084 131997520
一些值得注意的 IO 指标 :
- Device : 磁盘名称
- tps : 每秒 I / O 传输请求量
- Blk_read/s : 每秒读取多少块,查看块大小可参考命令 tune2fs
- Blk_wrtn/s : 每秒写取多少块
- Blk_read : 一共读了多少块
- –Blk_wrtn : 一共写了多少块
五、iotop 命令
iotop 命令类似于 top 命令,但是显示的是各个进程的 I / O 情况,对于定位 I / O 操作较重的进程有比较大的作用。
# iotop
Total DISK READ: 0.00 B/s | Total DISK WRITE: 774.52 K/s
TID PRIO USER DISK READ DISK WRITE SWAPIN IO> COMMAND
272 be/3 root 0.00 B/s 0.00 B/s 0.00 % 4.86 % [jbd2/vda1-8]
9072 be/4 mysql 0.00 B/s 268.71 K/s 0.00 % 0.00 % mysqld
5058 be/4 lvinkim 0.00 B/s 3.95 K/s 0.00 % 0.00 % php-fpm: pool www
1 be/4 root 0.00 B/s 0.00 B/s 0.00 % 0.00 % init
可以看到不同任务的读写强度。
六、sysstat 工具
很多时候当检测到或者知道历史的高负载状况时,可能需要回放历史监控数据,这时 sar 命令就派上用场了,sar 命令同样来自 sysstat 工具包,可以记录系统的 CPU 负载、I/ O 状况和内存使用记录,便于历史数据的回放。
sysstat 的配置文件在 /etc/sysconfig/sysstat 文件,历史日志的存放位置为 /var/log/sa
统计信息都是每 10 分钟记录一次,每天的 23:59 会分割统计文件,这些操作的频率都在 /etc/cron.d/sysstat 文件配置。
七、sar 命令
使用 sar 命令查看当天 CPU 使用:
$ sar
Linux 2.6.32-431.23.3.el6.x86_64 (szs01) 01/20/2017 _x86_64_ (1 CPU)
10:50:01 AM CPU %user %nice %system %iowait %steal %idle
11:00:01 AM all 0.45 0.00 0.22 0.40 0.00 98.93
Average: all 0.45 0.00 0.22 0.40 0.00 98.93
使用 sar 命令查看当天内存使用:
$ sar -r
Linux 2.6.32-431.23.3.el6.x86_64 (szs01) 01/20/2017 _x86_64_ (1 CPU)
10:50:01 AM kbmemfree kbmemused %memused kbbuffers kbcached kbcommit %commit
11:00:01 AM 41292 459180 91.75 44072 164620 822392 164.32
Average: 41292 459180 91.75 44072 164620 822392 164.32
使用 sar 命令查看当天 IO 统计记录:
$ sar -b
Linux 2.6.32-431.23.3.el6.x86_64 (szs01) 01/20/2017 _x86_64_ (1 CPU)
10:50:01 AM tps rtps wtps bread/s bwrtn/s
11:00:01 AM 3.31 2.14 1.17 37.18 16.84
Average: 3.31 2.14 1.17 37.18 16.84
更多 sar 用法,请 man sar。