Linux下定位系统问题方法

说明:在大数据平台运维过程中,我们总会遇到系统硬件或软件的故障导致平台或应用出现异常的情况。这种情况下,我们就需要去定位系统故障点。下面是我再排查系统问题中常用的方法。

1.cpu问题

(1)首先使用top查看系统CPU的使用率,连续观察2分钟左右,如果CPU使用率持续在90%以上不释放,说明是异常情况。

# top

top - 10:10:50 up 243 days, 23:01,  2 users,  load average: 1.11, 1.14, 1.14

Tasks: 171 total,  3 running, 168 sleeping,  0 stopped,  0 zombie

%Cpu(s): 16.1 us,  8.1 sy,  0.0 ni, 75.8 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st

KiB Mem : 32947248 total, 15687508 free,  8133896 used,  9125844 buff/cache

KiB Swap:  4063228 total,  3928472 free,  134756 used. 22537288 avail Mem

  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM    TIME+ COMMAND                                                                               

  830 root      20  0  246712  28760    948 R 100.0  0.1 294422:06 abrtd                                                                                 

2647 root      20  0  223148  16752  3968 R  93.3  0.1  0:00.18 python     



(2)使用uptime命令查看系统的load average ,三个数值分别为系统1分钟、5分钟、15分钟内的平均负载。后两个值如果大于系统物理CPU个数,说明异常。

# uptime

10:10:25 up 243 days, 23:01,  2 users,  load average: 1.16, 1.16, 1.14


(3)使用 vmstat命令来查看系统CPU的使用情况,关注 us和sy的使用情况,分别为用户和系统的使用量。

# vmstat 1 3

procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----

r  b  swpd  free  buff  cache  si  so    bi    bo  in  cs us sy id wa st

2  0 134756 16042160 158508 8968716    0    0    5    17    0    0  6  6 88  0  0

1  0 134756 16042160 158508 8968716    0    0    0    0 3929 2933  6  7 87  0  0

2  0 134756 16042116 158508 8968652    0    0    0    0 3625 2609  6  7 87  0  0


2.磁盘问题

(1)检查是否有盘满的情况(最常见的问题),如果use显示100%就说明盘满了。如果第一个盘,也就是系统盘满了影响是最大的,需要及时删除无用的文件(比如log文件)释放存储空间。

# df -h

Filesystem            Size  Used Avail Use% Mounted on

/dev/mapper/rhel-root  36G  16G  20G  44% /

devtmpfs                16G    0  16G  0% /dev

tmpfs                  16G    0  16G  0% /dev/shm

tmpfs                  16G  1.7G  15G  11% /run

tmpfs                  16G    0  16G  0% /sys/fs/cgroup

/dev/vdb              493G  405M  467G  1% /data

/dev/vda1            1014M  127M  888M  13% /boot

tmpfs                  3.2G    0  3.2G  0% /run/user/0


(2)检查磁盘是否有坏盘,如果系统有一块盘告警写入失败,我们最好的检查方法就是尝试写入看能否成功,如果成功了说明可能磁盘有坏点,如果失败了说明整个磁盘有问题了。

首先我会通过依次在每个盘对应目录去创建文件夹连检查盘是否可写。

如果可写就通过下面的命令进一步检查是否有磁盘坏点:

badblocks -v /dev/sda10 > badsectors.txt


(3)磁盘瓶颈检查:

# iostat -x 1 10

Linux 3.10.0-693.el7.x86_64 (OCDP-42-57)        08/19/2019      _x86_64_        (8 CPU)

avg-cpu:  %user  %nice %system %iowait  %steal  %idle

          5.75    0.00    6.03    0.46    0.03  87.73

Device:        rrqm/s  wrqm/s    r/s    w/s    rkB/s    wkB/s avgrq-sz avgqu-sz  await r_await w_await  svctm  %util

vda              0.04    0.27    0.10    4.14    3.95    55.21    27.92    0.17  39.50  78.31  38.55  9.87  4.18

vdb              0.00    0.52    0.24    1.04    32.47    75.45  167.86    0.15  113.98  127.36  110.84  11.05  1.42

scd0              0.00    0.00    0.00    0.00    0.00    0.00    8.00    0.00    3.44    3.44    0.00  3.44  0.00

dm-0              0.00    0.00    0.09    4.23    3.73    54.86    27.08    0.00    0.93  94.91  46.98  9.65  4.17

dm-1              0.00    0.00    0.05    0.09    0.21    0.35    8.00    0.18 1307.59  190.05 1969.99  13.49  0.19

如果 %util 接近 100%,说明产生的I/O请求太多,I/O系统已经满负荷,该磁盘可能存在瓶颈。

idle小于70% IO压力就较大了,一般读取速度有较多的wait.



3.网络问题

(1)ping 命令查看网络是否连通,是否有丢包。

# ping 10.1.236.145

PING 10.1.236.145 (10.1.236.145) 56(84) bytes of data.

64 bytes from 10.1.236.145: icmp_seq=1 ttl=64 time=0.614 ms

64 bytes from 10.1.236.145: icmp_seq=2 ttl=64 time=0.608 ms

64 bytes from 10.1.236.145: icmp_seq=3 ttl=64 time=0.473 ms

64 bytes from 10.1.236.145: icmp_seq=4 ttl=64 time=0.546 ms

--- 10.1.236.145 ping statistics ---

4 packets transmitted, 4 received, 0% packet loss, time 3000ms

rtt min/avg/max/mdev = 0.473/0.560/0.614/0.059 ms


(2)网络丢包详细查询

# netstat -i 1

Kernel Interface table

Iface      MTU    RX-OK RX-ERR RX-DRP RX-OVR    TX-OK TX-ERR TX-DRP TX-OVR Flg

eth0      1500 2337233695      0      0 0      2148368338      0      0      0 BMRU

lo      65536 253948831      0      0 0      253948831      0      0      0 LRU

eth0      1500 2337233727      0      0 0      2148368370      0      0      0 BMRU

lo      65536 253948837      0      0 0      253948837      0      0      0 LRU

eth0      1500 2337233795      0      0 0      2148368439      0      0      0 BMRU

lo      65536 253948839      0      0 0      253948839      0      0      0 LRU


RX-OK / TX-OK : 准确无误地接收 / 发送了多少数据包

RX-ERR / TX-ERR : 接收 / 发送数据包时产生了多少错误

 RX-DRP / TX-DRP : 接收 / 发送数据包时丢弃了多少数据包

 RX-OVR / TX-OVR : 由于误差而遗失了多少数据包



4.内存问题

(1)free命令查看系统内存是否紧张。

# free -g

              total        used        free      shared  buff/cache  available

Mem:            31          7          14          1          8          21

Swap:            3          0          3

当used接近total时,catch占用内存小,则主机内存紧张。


(2)主机缓存不释放导致主机内存紧张。

需要通过free命令持续观察catch和swap是否有变化。如果系统内存紧张,但是catch和swap内存都没有变化,说明极有可能是主机catch不释放。必要时候可以手动释放:

清理主机缓存命令:

echo 1 > /proc/sys/vm/drop_caches

echo 2 > /proc/sys/vm/drop_caches

echo 3 > /proc/sys/vm/drop_caches



5.系统打开文件数问题

报错信息:

File does not exist. Holder DFSClient_NONMAPREDUCE_1845230474_1 does not have any open files.

查看与解决方法:

# ulimit -a

core file size          (blocks, -c) 0

data seg size          (kbytes, -d) unlimited

scheduling priority            (-e) 0

file size              (blocks, -f) unlimited

pending signals                (-i) 128613

max locked memory      (kbytes, -l) 64

max memory size        (kbytes, -m) unlimited

open files                      (-n) 1024

pipe size            (512 bytes, -p) 8

POSIX message queues    (bytes, -q) 819200

real-time priority              (-r) 0

stack size              (kbytes, -s) 8192

cpu time              (seconds, -t) unlimited

max user processes              (-u) 128613

virtual memory          (kbytes, -v) unlimited

file locks                      (-x) unlimited


临时解决方法:

在用户的系统环境变量文件.bash_profile中添加如下几行:

ulimit -n 1048576

ulimit -s 10240

ulimit -u 655350

报错&重新登录生效。

永久解决方法:

vi /etc/security/limits.d/username.conf

username - nofile 128000

username  - nproc  65536

保存生效。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,033评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,725评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,473评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,846评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,848评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,691评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,053评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,700评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,856评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,676评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,787评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,430评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,034评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,990评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,218评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,174评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,526评论 2 343

推荐阅读更多精彩内容