平均负载

平均负载：单位时间内，系统处于可运行状态和不可中断状态的平均进程数，也就是平均活跃进程数，和 CPU 使用率并没有直接关系。
可运行状态的进程：是指正在使用 CPU 或者正在等待 CPU 的进程，也就是我们常用 ps 命令看到的，处于 R 状态（Running 或 Runnable）的进程。
不可中断状态的进程：正处于内核态关键流程中的进程，并且这些流程是不可打断的，比如最常见的是等待硬件设备的 I/O 响应，也就是我们在 ps 命令中看到的 D 状态（Uninterruptible Sleep，也称为 Disk Sleep）的进程。

怎么判断系统负载高？

举一个例子，加入我们在一个 2core cpu 的机器上看到过去 1 分钟，5 分钟，15 分钟的平均负载是load average: 2.78, 0.40, 6.38，则说明系统在过去一分钟内有 78% 的超载，过去十分钟有 438% 的超载，但整体负载是在降低的。
一般来说，当平均负载高于 cpu 数量 70% 的时间，建议就要分析系统负载高的问题了。
不过，要判断系统的平均负载，得先知道系统有几个 cpu，可以使用如下命令获取：

 grep 'model name' /proc/cpuinfo | wc -l

平均负载与 cpu 使用率的关系

CPU 密集型进程，使用大量 CPU 会导致平均负载升高，此时这两者是一致的；
I/O 密集型进程，等待 I/O 也会导致平均负载升高，但 CPU 使用率不一定很高；
大量等待 CPU 的进程调度也会导致平均负载升高，此时的 CPU 使用率也会比较高。

如何分析平均负载

工具介绍

yum install stress sysstat -y
# sysstat 包含了常用的 Linux 性能工具，用来监控和分析系统的性能。

stress: 压测工具，模拟日常高负载的场景。
mpstat 是一个常用的多核 CPU 性能分析工具，用来实时查看每个 CPU 的性能指标，以及所有 CPU 的平均指标。
pidstat 是一个常用的进程性能分析工具，用来实时查看进程的 CPU、内存、I/O 以及上下文切换等性能指标。

cpu 密集型场景

窗口 1

# 模拟两个 cpu 被吃满的场景
stress --cpu 2 --timeout 600

窗口 2

# 持续关注平均负载的变化情况
watch -d uptime
 08:35:27 up 231 days, 18:13,  5 users,  load average: 2.19, 1.36, 0.77

窗口 3

# 使用 mpstat 查看 cpu 使用率的变化情况
# -P ALL 表示监控所有cpu，间隔 5s输出一次
mpstat -P ALL 5
...
08:31:54 AM  CPU    %usr   %nice    %sys %iowait    %irq   %soft  %steal  %guest  %gnice   %idle
08:31:59 AM  all   14.62    0.00    1.45    0.04    0.00    0.24    0.00    0.00    0.00   83.65
08:31:59 AM    0    2.45    0.00    1.22    0.20    0.00    0.00    0.00    0.00    0.00   96.12
08:31:59 AM    1    1.41    0.00    1.20    0.00    0.00    1.41    0.00    0.00    0.00   95.98
08:31:59 AM    2    3.84    0.00    1.41    0.00    0.00    0.61    0.00    0.00    0.00   94.14
08:31:59 AM    3    1.81    0.00    1.41    0.00    0.00    0.80    0.00    0.00    0.00   95.98
08:31:59 AM    4    1.21    0.00    1.21    0.00    0.00    0.20    0.00    0.00    0.00   97.38
08:31:59 AM    5  100.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00
08:31:59 AM    6    3.64    0.00    2.83    0.00    0.00    0.20    0.00    0.00    0.00   93.33
08:31:59 AM    7    3.21    0.00    1.40    0.20    0.00    0.20    0.00    0.00    0.00   94.99
08:31:59 AM    8  100.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00    0.00
08:31:59 AM    9    1.80    0.00    0.80    0.00    0.00    0.00    0.00    0.00    0.00   97.39
08:31:59 AM   10    2.43    0.00    1.42    0.00    0.00    0.00    0.00    0.00    0.00   96.15
08:31:59 AM   11    1.81    0.00    2.62    0.00    0.00    0.20    0.00    0.00    0.00   95.37
08:31:59 AM   12    2.23    0.00    2.43    0.00    0.00    0.00    0.00    0.00    0.00   95.34
08:31:59 AM   13    2.01    0.00    1.81    0.00    0.00    0.00    0.00    0.00    0.00   96.18
08:31:59 AM   14    2.62    0.00    1.61    0.00    0.00    0.20    0.00    0.00    0.00   95.56
08:31:59 AM   15    2.21    0.00    1.81    0.20    0.00    0.00    0.00    0.00    0.00   95.78
...

可以看到 cpu5 和 9 使用率达到了 100%。

窗口4

# 使用 pidstat 查看
# 间隔5秒后输出一组数据
pidstat -u 5 1
08:32:50 AM   UID       PID    %usr %system  %guest   %wait    %CPU   CPU  Command
...
Average:      999   2896361    0.20    0.00    0.00    0.00    0.20     -  argocd-server
Average:        0   3246750  100.00    0.00    0.00    0.00  100.00     -  stress
Average:        0   3246751  100.00    0.00    0.00    0.00  100.00     -  stress
Average:        0   3248088    0.00    0.20    0.00    0.00    0.20     -  kruise-controll
...

可以看到是 stress占满了 cpu

io密集型场景

# 模拟高 io 场景
stress -i 1 --timeout 600

窗口 2

watch -d uptime
Every 2.0s: uptime                                                                                                                     VM-167-17-tencentos: Sat Dec 30 06:30:52 2023

 06:30:52 up 233 days, 16:08,  5 users,  load average: 2.38, 1.33, 1.03

可以看到，通过对 io 进行压测，也会导致系统负载的升高
窗口3

# 显示所有CPU的指标，并在间隔5秒输出一组数据
$ mpstat -P ALL 5 1
13:41:28     CPU    %usr   %nice    %sys %iowait    %irq   %soft  %steal  %guest  %gnice   %idle
13:41:33     all    0.21    0.00   12.07   32.67    0.00    0.21    0.00    0.00    0.00   54.84
13:41:33       0    0.43    0.00   29.8   62.3    0.00    0.43    0.00    0.00    0.00    7.94
13:41:33       1    0.00    0.00    0.81    0.20    0.00    0.00    0.00    0.00    0.00   98.99

可以看到，cpu 使用率的升高是由于比较高的 io wait 导致。
窗口 4

 pidstat -u 5 1
06:33:57 AM   UID       PID    %usr %system  %guest   %wait    %CPU   CPU  Command
...
06:34:02 AM     0   3274695    0.00    0.20    0.00    0.00    0.20     7  kworker/7:0-events
06:34:02 AM     0   3279743    0.00   78.04    0.00    0.00   78.04     2  stress
06:34:02 AM     0   3280943    0.00    0.20    0.00    0.00    0.20     5  kworker/5:0-events
...

ok，至此，我们已经找到问题在哪里了

大量进程场景

# 模拟多进程场景，16core 机器模拟 32 进程场景
stress -c 32 --timeout 600

窗口 1

watch -d uptime
Every 2.0s: uptime                                                                                                                     VM-167-17-tencentos: Sat Dec 30 06:52:53 2023
 06:52:53 up 233 days, 16:30,  5 users,  load average: 30.82, 6.79, 1.34

可以看到，过去 1 分钟系统已经严重超载