Linux性能60秒快速分析

出自:https://netflixtechblog.com/linux-performance-analysis-in-60-000-milliseconds-accc10403c55

简介

一般来说Linxu系统出现性能问题,离不开以下几点:

  • CPU
  • 网络
  • 内存
  • IO

通过下一章节的10条命令,可以快速知道关于Linux上面罗列的数据

命令分析

uptime              # load averages
dmesg | tail        # kernel errors
vmstat 1            # overall stats by time
mpstat -P ALL 1     # CPU balance
pidstat 1           # process usage
iostat -xz 1        # disk I/O
free -m             # memory usage
sar -n DEV 1        # network I/O
sar -n TCP,ETCP 1   # TCP stats
top                 #check overview
  • uptime

    $ uptime 
    23:51:26 up 21:31, 1 user, load average: 30.02, 26.43, 19.02
    

    通过uptime,可以得到CPU平均负载的数据

    分别时 1 min / 5 min / 15 min的平均负载

    这个例子的数据代表,近1分钟,CPU的负载要高于 5 分钟和 15分钟的,代表CPU的使用负载呈现越来越高的趋势

  • dmesg | tail

    $ dmesg | tail
    [1880957.563150] perl invoked oom-killer: gfp_mask=0x280da, order=0, oom_score_adj=0
    [...]
    [1880957.563400] Out of memory: Kill process 18694 (perl) score 246 or sacrifice child
    [1880957.563408] Killed process 18694 (perl) total-vm:1972392kB, anon-rss:1953348kB, file-rss:0kB
    [2320864.954447] TCP: Possible SYN flooding on port 7001. Dropping request.  Check SNMP counters.
    

    当内核出现故障,一般都会把ERROR日志输出到dmesg里

    通过查看dmesg,可以快速判定kernel是否出现异常情况

    导致Linux出现性能问题

  • vmstat 1

    $ vmstat 1
    procs ---------memory---------- ---swap-- -----io---- -system-- ------cpu-----
     r  b swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
    34  0    0 200889792  73708 591828    0    0     0     5    6   10 96  1  3  0  0
    32  0    0 200889920  73708 591860    0    0     0   592 13284 4282 98  1  1  0  0
    32  0    0 200890112  73708 591860    0    0     0     0 9501 2154 99  1  0  0  0
    32  0    0 200889568  73712 591856    0    0     0    48 11900 2459 99  0  0  0  0
    32  0    0 200890208  73712 591860    0    0     0     0 15898 4840 98  1  1  0  0
    ^C
    

    vmstat会实时打印出内存的使用情况

    • r:代表有多少个进程等待着被CPU调度,如果这里的数量比较大,会对CPU的调度产生压力
    • free:代表可用的内存,单位时 k ,
    • si/so:代表内存的换出换入,如果这里不是零,代表内存严重不足
    • us / sy / id / wa / st: 代表CPU的user time, system time, idle time和stolen time是,通过这四个值,可以知道CPU主要花费的时间是在用户态,还是内核态,还是等待IO
  • mpstat -P ALL 1

    $ mpstat -P ALL 1
    Linux 3.13.0-49-generic (titanclusters-xxxxx)  07/14/2015  _x86_64_ (32 CPU)
    
    07:38:49 PM  CPU   %usr  %nice   %sys %iowait   %irq  %soft  %steal  %guest  %gnice  %idle
    07:38:50 PM  all  98.47   0.00   0.75    0.00   0.00   0.00    0.00    0.00    0.00   0.78
    07:38:50 PM    0  96.04   0.00   2.97    0.00   0.00   0.00    0.00    0.00    0.00   0.99
    07:38:50 PM    1  97.00   0.00   1.00    0.00   0.00   0.00    0.00    0.00    0.00   2.00
    07:38:50 PM    2  98.00   0.00   1.00    0.00   0.00   0.00    0.00    0.00    0.00   1.00
    07:38:50 PM    3  96.97   0.00   0.00    0.00   0.00   0.00    0.00    0.00    0.00   3.03
    [...]
    

    这条命令可以知道每个CPU花费的时间是在用户态还是内核态

  • pidstat 1

    $ pidstat 1
    Linux 3.13.0-49-generic (titanclusters-xxxxx)  07/14/2015    _x86_64_    (32 CPU)
    
    07:41:02 PM   UID       PID    %usr %system  %guest    %CPU   CPU  Command
    07:41:03 PM     0         9    0.00    0.94    0.00    0.94     1  rcuos/0
    07:41:03 PM     0      4214    5.66    5.66    0.00   11.32    15  mesos-slave
    07:41:03 PM     0      4354    0.94    0.94    0.00    1.89     8  java
    07:41:03 PM     0      6521 1596.23    1.89    0.00 1598.11    27  java
    07:41:03 PM     0      6564 1571.70    7.55    0.00 1579.25    28  java
    07:41:03 PM 60004     60154    0.94    4.72    0.00    5.66     9  pidstat
    
    07:41:03 PM   UID       PID    %usr %system  %guest    %CPU   CPU  Command
    07:41:04 PM     0      4214    6.00    2.00    0.00    8.00    15  mesos-slave
    07:41:04 PM     0      6521 1590.00    1.00    0.00 1591.00    27  java
    07:41:04 PM     0      6564 1573.00   10.00    0.00 1583.00    28  java
    07:41:04 PM   108      6718    1.00    0.00    0.00    1.00     0  snmp-pass
    07:41:04 PM 60004     60154    1.00    4.00    0.00    5.00     9  pidstat
    ^C
    

    pidstat可以打印出正在高速运行的进程CPU的占用情况

    pidstat滚动的打印实时状态,这样可以通过观察它的输出变化,实时知道系统CPU被某进程占用的过程数据

    这里java进程的CPU占用率达到1590%,代表它占用了16个CPUs

  • iostat -xz 1

    $ iostat -xz 1
    Linux 3.13.0-49-generic (titanclusters-xxxxx)  07/14/2015  _x86_64_ (32 CPU)
    
    avg-cpu:  %user   %nice %system %iowait  %steal   %idle
              73.96    0.00    3.73    0.03    0.06   22.21
    
    Device:   rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
    xvda        0.00     0.23    0.21    0.18     4.52     2.08    34.37     0.00    9.98   13.80    5.42   2.44   0.09
    xvdb        0.01     0.00    1.02    8.94   127.97   598.53   145.79     0.00    0.43    1.78    0.28   0.25   0.25
    xvdc        0.01     0.00    1.02    8.86   127.79   595.94   146.50     0.00    0.45    1.82    0.30   0.27   0.26
    dm-0        0.00     0.00    0.69    2.32    10.47    31.69    28.01     0.01    3.23    0.71    3.98   0.13   0.04
    dm-1        0.00     0.00    0.00    0.94     0.01     3.78     8.00     0.33  345.84    0.04  346.81   0.01   0.00
    dm-2        0.00     0.00    0.09    0.07     1.35     0.36    22.50     0.00    2.55    0.23    5.62   1.78   0.03
    [...]
    ^C
    
    • r/s w/s rkB/s wkB/s: 分别代表read per second, write per second, read kb per second, write kb per second
    • await:代表平均IO处理的时间,单位是毫秒,如果这个值高于平均值,代表设备出现高负载,或者出现了问题
    • avgrq-sz:代表设别处理的平均请求,如果这个值高于1,代表设备已经饱和,来不及处理IO请求
    • %util:代表设备的使用率,高于60%,代表设备非常忙碌
  • free -m

    $ free -m
                 total       used       free     shared    buffers     cached
    Mem:        245998      24545     221453         83         59        541
    -/+ buffers/cache:      23944     222053
    Swap:            0          0          0
    

    内存的使用情况,包括可用内存,已使用内存,总内存,缓冲,缓存

    • buffers:缓冲,用于加快write IO
    • cached:缓存,用于加快read IO

    如果上面这两个值几乎等于零,会导致IO的性能出现问题

  • sar -n DEV 1

    $ sar -n DEV 1
    Linux 3.13.0-49-generic (titanclusters-xxxxx)  07/14/2015     _x86_64_    (32 CPU)
    
    12:16:48 AM     IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s   %ifutil
    12:16:49 AM      eth0  18763.00   5032.00  20686.42    478.30      0.00      0.00      0.00      0.00
    12:16:49 AM        lo     14.00     14.00      1.36      1.36      0.00      0.00      0.00      0.00
    12:16:49 AM   docker0      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00
    
    12:16:49 AM     IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s   %ifutil
    12:16:50 AM      eth0  19763.00   5101.00  21999.10    482.56      0.00      0.00      0.00      0.00
    12:16:50 AM        lo     20.00     20.00      3.25      3.25      0.00      0.00      0.00      0.00
    12:16:50 AM   docker0      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00
    ^C
    

    这命令可以查看网络设备的吞吐率

    rxkB/s 和 txkB/s 可以得到目前网络的负载,

    通过对比网卡的速率,可以知道网卡的处理是否已经达到瓶颈

    例如上面个的,eth读负载在22 Mbytes/s, 代表 176 Mbits/sec,这要比网卡的速率例如 1 Gbit/sec 要低得多

  • sar -n TCP,ETCP 1

    $ sar -n TCP,ETCP 1
    Linux 3.13.0-49-generic (titanclusters-xxxxx)  07/14/2015    _x86_64_    (32 CPU)
    
    12:17:19 AM  active/s passive/s    iseg/s    oseg/s
    12:17:20 AM      1.00      0.00  10233.00  18846.00
    
    12:17:19 AM  atmptf/s  estres/s retrans/s isegerr/s   orsts/s
    12:17:20 AM      0.00      0.00      0.00      0.00      0.00
    
    12:17:20 AM  active/s passive/s    iseg/s    oseg/s
    12:17:21 AM      1.00      0.00   8359.00   6039.00
    
    12:17:20 AM  atmptf/s  estres/s retrans/s isegerr/s   orsts/s
    12:17:21 AM      0.00      0.00      0.00      0.00      0.00
    ^C
    

    这条命令可以知道TCP数据的处理情况

    • active/s:本地生成的TCP连接的数量,例如调用connect
    • passive/s:被动产生TCP连接的数量,例如accept
    • retrans/s:TCP重传的数量

    TCP重传如果数量大,代表网络质量不好,导致出现了TCP丢包的情况

  • top

    $ top
    top - 00:15:40 up 21:56,  1 user,  load average: 31.09, 29.87, 29.92
    Tasks: 871 total,   1 running, 868 sleeping,   0 stopped,   2 zombie
    %Cpu(s): 96.8 us,  0.4 sy,  0.0 ni,  2.7 id,  0.1 wa,  0.0 hi,  0.0 si,  0.0 st
    KiB Mem:  25190241+total, 24921688 used, 22698073+free,    60448 buffers
    KiB Swap:        0 total,        0 used,        0 free.   554208 cached Mem
    
       PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND
     20248 root      20   0  0.227t 0.012t  18748 S  3090  5.2  29812:58 java
      4213 root      20   0 2722544  64640  44232 S  23.5  0.0 233:35.37 mesos-slave
     66128 titancl+  20   0   24344   2332   1172 R   1.0  0.0   0:00.07 top
      5235 root      20   0 38.227g 547004  49996 S   0.7  0.2   2:02.74 java
      4299 root      20   0 20.015g 2.682g  16836 S   0.3  1.1  33:14.42 java
         1 root      20   0   33620   2920   1496 S   0.0  0.0   0:03.82 init
         2 root      20   0       0      0      0 S   0.0  0.0   0:00.02 kthreadd
         3 root      20   0       0      0      0 S   0.0  0.0   0:05.35 ksoftirqd/0
         5 root       0 -20       0      0      0 S   0.0  0.0   0:00.00 kworker/0:0H
         6 root      20   0       0      0      0 S   0.0  0.0   0:06.94 kworker/u256:0
         8 root      20   0       0      0      0 S   0.0  0.0   2:38.05 rcu_sched
    

    可以得到整个系统的概况数据

©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,445评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,889评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,047评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,760评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,745评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,638评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,011评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,669评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,923评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,655评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,740评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,406评论 4 320
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,995评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,961评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,023评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,483评论 2 342

推荐阅读更多精彩内容