说明:在大数据平台运维过程中,我们总会遇到系统硬件或软件的故障导致平台或应用出现异常的情况。这种情况下,我们就需要去定位系统故障点。下面是我再排查系统问题中常用的方法。
1.cpu问题
(1)首先使用top查看系统CPU的使用率,连续观察2分钟左右,如果CPU使用率持续在90%以上不释放,说明是异常情况。
# top
top - 10:10:50 up 243 days, 23:01, 2 users, load average: 1.11, 1.14, 1.14
Tasks: 171 total, 3 running, 168 sleeping, 0 stopped, 0 zombie
%Cpu(s): 16.1 us, 8.1 sy, 0.0 ni, 75.8 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
KiB Mem : 32947248 total, 15687508 free, 8133896 used, 9125844 buff/cache
KiB Swap: 4063228 total, 3928472 free, 134756 used. 22537288 avail Mem
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
830 root 20 0 246712 28760 948 R 100.0 0.1 294422:06 abrtd
2647 root 20 0 223148 16752 3968 R 93.3 0.1 0:00.18 python
(2)使用uptime命令查看系统的load average ,三个数值分别为系统1分钟、5分钟、15分钟内的平均负载。后两个值如果大于系统物理CPU个数,说明异常。
# uptime
10:10:25 up 243 days, 23:01, 2 users, load average: 1.16, 1.16, 1.14
(3)使用 vmstat命令来查看系统CPU的使用情况,关注 us和sy的使用情况,分别为用户和系统的使用量。
# vmstat 1 3
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
r b swpd free buff cache si so bi bo in cs us sy id wa st
2 0 134756 16042160 158508 8968716 0 0 5 17 0 0 6 6 88 0 0
1 0 134756 16042160 158508 8968716 0 0 0 0 3929 2933 6 7 87 0 0
2 0 134756 16042116 158508 8968652 0 0 0 0 3625 2609 6 7 87 0 0
2.磁盘问题
(1)检查是否有盘满的情况(最常见的问题),如果use显示100%就说明盘满了。如果第一个盘,也就是系统盘满了影响是最大的,需要及时删除无用的文件(比如log文件)释放存储空间。
# df -h
Filesystem Size Used Avail Use% Mounted on
/dev/mapper/rhel-root 36G 16G 20G 44% /
devtmpfs 16G 0 16G 0% /dev
tmpfs 16G 0 16G 0% /dev/shm
tmpfs 16G 1.7G 15G 11% /run
tmpfs 16G 0 16G 0% /sys/fs/cgroup
/dev/vdb 493G 405M 467G 1% /data
/dev/vda1 1014M 127M 888M 13% /boot
tmpfs 3.2G 0 3.2G 0% /run/user/0
(2)检查磁盘是否有坏盘,如果系统有一块盘告警写入失败,我们最好的检查方法就是尝试写入看能否成功,如果成功了说明可能磁盘有坏点,如果失败了说明整个磁盘有问题了。
首先我会通过依次在每个盘对应目录去创建文件夹连检查盘是否可写。
如果可写就通过下面的命令进一步检查是否有磁盘坏点:
badblocks -v /dev/sda10 > badsectors.txt
(3)磁盘瓶颈检查:
# iostat -x 1 10
Linux 3.10.0-693.el7.x86_64 (OCDP-42-57) 08/19/2019 _x86_64_ (8 CPU)
avg-cpu: %user %nice %system %iowait %steal %idle
5.75 0.00 6.03 0.46 0.03 87.73
Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util
vda 0.04 0.27 0.10 4.14 3.95 55.21 27.92 0.17 39.50 78.31 38.55 9.87 4.18
vdb 0.00 0.52 0.24 1.04 32.47 75.45 167.86 0.15 113.98 127.36 110.84 11.05 1.42
scd0 0.00 0.00 0.00 0.00 0.00 0.00 8.00 0.00 3.44 3.44 0.00 3.44 0.00
dm-0 0.00 0.00 0.09 4.23 3.73 54.86 27.08 0.00 0.93 94.91 46.98 9.65 4.17
dm-1 0.00 0.00 0.05 0.09 0.21 0.35 8.00 0.18 1307.59 190.05 1969.99 13.49 0.19
如果 %util 接近 100%,说明产生的I/O请求太多,I/O系统已经满负荷,该磁盘可能存在瓶颈。
idle小于70% IO压力就较大了,一般读取速度有较多的wait.
3.网络问题
(1)ping 命令查看网络是否连通,是否有丢包。
# ping 10.1.236.145
PING 10.1.236.145 (10.1.236.145) 56(84) bytes of data.
64 bytes from 10.1.236.145: icmp_seq=1 ttl=64 time=0.614 ms
64 bytes from 10.1.236.145: icmp_seq=2 ttl=64 time=0.608 ms
64 bytes from 10.1.236.145: icmp_seq=3 ttl=64 time=0.473 ms
64 bytes from 10.1.236.145: icmp_seq=4 ttl=64 time=0.546 ms
--- 10.1.236.145 ping statistics ---
4 packets transmitted, 4 received, 0% packet loss, time 3000ms
rtt min/avg/max/mdev = 0.473/0.560/0.614/0.059 ms
(2)网络丢包详细查询
# netstat -i 1
Kernel Interface table
Iface MTU RX-OK RX-ERR RX-DRP RX-OVR TX-OK TX-ERR TX-DRP TX-OVR Flg
eth0 1500 2337233695 0 0 0 2148368338 0 0 0 BMRU
lo 65536 253948831 0 0 0 253948831 0 0 0 LRU
eth0 1500 2337233727 0 0 0 2148368370 0 0 0 BMRU
lo 65536 253948837 0 0 0 253948837 0 0 0 LRU
eth0 1500 2337233795 0 0 0 2148368439 0 0 0 BMRU
lo 65536 253948839 0 0 0 253948839 0 0 0 LRU
RX-OK / TX-OK : 准确无误地接收 / 发送了多少数据包
RX-ERR / TX-ERR : 接收 / 发送数据包时产生了多少错误
RX-DRP / TX-DRP : 接收 / 发送数据包时丢弃了多少数据包
RX-OVR / TX-OVR : 由于误差而遗失了多少数据包
4.内存问题
(1)free命令查看系统内存是否紧张。
# free -g
total used free shared buff/cache available
Mem: 31 7 14 1 8 21
Swap: 3 0 3
当used接近total时,catch占用内存小,则主机内存紧张。
(2)主机缓存不释放导致主机内存紧张。
需要通过free命令持续观察catch和swap是否有变化。如果系统内存紧张,但是catch和swap内存都没有变化,说明极有可能是主机catch不释放。必要时候可以手动释放:
清理主机缓存命令:
echo 1 > /proc/sys/vm/drop_caches
echo 2 > /proc/sys/vm/drop_caches
echo 3 > /proc/sys/vm/drop_caches
5.系统打开文件数问题
报错信息:
File does not exist. Holder DFSClient_NONMAPREDUCE_1845230474_1 does not have any open files.
查看与解决方法:
# ulimit -a
core file size (blocks, -c) 0
data seg size (kbytes, -d) unlimited
scheduling priority (-e) 0
file size (blocks, -f) unlimited
pending signals (-i) 128613
max locked memory (kbytes, -l) 64
max memory size (kbytes, -m) unlimited
open files (-n) 1024
pipe size (512 bytes, -p) 8
POSIX message queues (bytes, -q) 819200
real-time priority (-r) 0
stack size (kbytes, -s) 8192
cpu time (seconds, -t) unlimited
max user processes (-u) 128613
virtual memory (kbytes, -v) unlimited
file locks (-x) unlimited
临时解决方法:
在用户的系统环境变量文件.bash_profile中添加如下几行:
ulimit -n 1048576
ulimit -s 10240
ulimit -u 655350
报错&重新登录生效。
永久解决方法:
vi /etc/security/limits.d/username.conf
username - nofile 128000
username - nproc 65536
保存生效。