linux-optimize001

什么是平均负载？

如何彻底理解现象背后的本质原理，用起来更加灵活，也更有底气。

uptime 命令每一列的输出含义

当前时间系统运行时间正在登录的用户数

依次是过去一分钟五分钟 15分钟的平均负载

平均负载是其实简单理解就是平均活跃进程数

平均负载为2 时代表什么？

那么

一般而言最理想的情况是等于cpu的个数首先得知道系统有几个cpu

1	grep 'model name' /proc/cpuinfo \| wc -l

有了cpu的个数可以判断出平均负载比cpu的个数还大的时候，系统已经出现了过载。

一半当平均负载高于cpu数量70%的时候，就应该分析排查负载高的问题了

平均负载是单位时间内，处于可运行状态和不可中断状态的进程数，因此不止包括了正在使用cpu的进程，还包括等待cpu和等待io的进程

cpu使用率是单位时间内cpu繁忙情况的统计跟平均负载并不一定完全对应

使用 iostat mpstat pidstat 等工具找到平均负载升高的根源在哪里

1	apt install stress sysstat -y

压力测试工具

异常进程模拟平均负载升高的场景

1	stress --cpu 1 --timeout 600

1	watch -d uptime

1	mpstat -P ALL 5

1	pidstat -u 5 1

1	stress -i 1 --timeout 600

模拟大量进程

1	stress -c 8 --timeout 600

iowait 无法升高的原因是因为使用的是sync()系统调用作用是刷新缓冲内存到磁盘中可以使用下一代 stress-ng

htop atop 命令也可以使用