JVM命令-java服务器故障排查

一、top(Linux命令)

执行top命令:  (查看进程15477的详细情况,下文用到)

系统信息(前五行):

第1行:Top 任务队列信息(系统运行状态及平均负载),与uptime命令结果相同。

第1段:系统当前时间,例如:16:07:37

第2段:系统运行时间,未重启的时间,时间越长系统越稳定。

格式:up xx days, HH:MM

例如:241 days, 20:11, 表示连续运行了241天20小时11分钟

第3段:当前登录用户数,例如:1 user,表示当前只有1个用户登录

第4段:系统负载,即任务队列的平均长度,3个数值分别统计最近1,5,15分钟的系统平均负载

系统平均负载:单核CPU情况下,0.00 表示没有任何负荷,1.00表示刚好满负荷,超过1侧表示超负荷,理想值是0.7;

多核CPU负载:CPU核数 * 理想值0.7 = 理想负荷,例如:4核CPU负载不超过2.8何表示没有出现高负载。

第2行:Tasks 进程相关信息

第1段:进程总数,例如:Tasks: 231 total, 表示总共运行231个进程

第2段:正在运行的进程数,例如:1 running,

第3段:睡眠的进程数,例如:230 sleeping,

第4段:停止的进程数,例如:0 stopped,

第5段:僵尸进程数,例如:0 zombie

第3行:Cpus CPU相关信息,如果是多核CPU,按数字1可显示各核CPU信息,此时1行将转为Cpu核数行,数字1可以来回切换。

第1段:us 用户空间占用CPU百分比,例如:Cpu(s): 12.7%us,

第2段:sy 内核空间占用CPU百分比,例如:8.4%sy,

第3段:ni 用户进程空间内改变过优先级的进程占用CPU百分比,例如:0.0%ni,

第4段:id 空闲CPU百分比,例如:77.1%id,

第5段:wa 等待输入输出的CPU时间百分比,例如:0.0%wa,

第6段:hi CPU服务于硬件中断所耗费的时间总额,例如:0.0%hi,

第7段:si CPU服务软中断所耗费的时间总额,例如:1.8%si,

第8段:st Steal time 虚拟机被hypervisor偷去的CPU时间(如果当前处于一个hypervisor下的vm,实际上hypervisor也是要消耗一部分CPU处理时间的)

第4行:Mem 内存相关信息(Mem: 12196436k total, 12056552k used, 139884k free, 64564k buffers)

第1段:物理内存总量,例如:Mem: 12196436k total,

第2段:使用的物理内存总量,例如:12056552k used,

第3段:空闲内存总量,例如:Mem: 139884k free,

第4段:用作内核缓存的内存量,例如:64564k buffers

第5行:Swap 交换分区相关信息(Swap: 2097144k total, 151016k used, 1946128k free, 3120236k cached)

第1段:交换区总量,例如:Swap: 2097144k total,

第2段:使用的交换区总量,例如:151016k used,

第3段:空闲交换区总量,例如:1946128k free,

第4段:缓冲的交换区总量,3120236k cached

进程信息:

在top命令中按f按可以查看显示的列信息,按对应字母来开启/关闭列,大写字母表示开启,小写字母表示关闭。带*号的是默认列。

A: PID = (Process Id) 进程Id;

E: USER = (User Name) 进程所有者的用户名;

H: PR = (Priority) 优先级

I: NI = (Nice value) nice值。负值表示高优先级,正值表示低优先级

O: VIRT = (Virtual Image (kb)) 进程使用的虚拟内存总量,单位kb。VIRT=SWAP+RES

Q: RES = (Resident size (kb)) 进程使用的、未被换出的物理内存大小,单位kb。RES=CODE+DATA

T: SHR = (Shared Mem size (kb)) 共享内存大小,单位kb

W: S = (Process Status) 进程状态。D=不可中断的睡眠状态,R=运行,S=睡眠,T=跟踪/停止,Z=僵尸进程

K: %CPU = (CPU usage) 上次更新到现在的CPU时间占用百分比

N: %MEM = (Memory usage (RES)) 进程使用的物理内存百分比

M: TIME+ = (CPU Time, hundredths) 进程使用的CPU时间总计,单位1/100秒

b: PPID = (Parent Process Pid) 父进程Id

c: RUSER = (Real user name)

d: UID = (User Id) 进程所有者的用户id

f: GROUP = (Group Name) 进程所有者的组名

g: TTY = (Controlling Tty) 启动进程的终端名。不是从终端启动的进程则显示为 ?

j: P = (Last used cpu (SMP)) 最后使用的CPU,仅在多CPU环境下有意义

p: SWAP = (Swapped size (kb)) 进程使用的虚拟内存中,被换出的大小,单位kb

l: TIME = (CPU Time) 进程使用的CPU时间总计,单位秒

r: CODE = (Code size (kb)) 可执行代码占用的物理内存大小,单位kb

s: DATA = (Data+Stack size (kb)) 可执行代码以外的部分(数据段+栈)占用的物理内存大小,单位kb

u: nFLT = (Page Fault count) 页面错误次数

v: nDRT = (Dirty Pages count) 最后一次写入到现在,被修改过的页面数

y: WCHAN = (Sleeping in Function) 若该进程在睡眠,则显示睡眠中的系统函数名

z: Flags = (Task Flags <sched.h>) 任务标志,参考 sched.h

X: COMMAND = (Command name/line) 命令名/命令行

参考  Linux性能分析工具top命令详解

执行top -Hp PID,如 top -Hp 15477

查看某进程中的线程  注:此时PID是线程id

如线程15571有异常需要查看,使用jstack打印堆栈,查看线程15571状态(15571 16进制=3cd3)

二、jstack

参考 java命令--jstack 工具

  Java命令学习系列(二)——Jstack

需要到JDK安装目录下使用(可通过ps x查看java进程,得到jdk安装目录)

./jstack PID(进程id)  ./jstack 15477

红框中即为线程15571(16进制=3cd3) 状态

分析jstack日志:

监视器Monitor:

Monitor是 Java中用以实现线程之间的互斥与协作的主要手段,它可以看成是对象或者 Class的锁。

每一个对象都有,也仅有一个 monitor。

下面这个图,描述了线程和Monitor之间关系,以及线程的状态转换:

进入区(Entrt Set):表示线程通过synchronized要求获取对象的锁。如果对象被锁住,则进入拥有者;否则在进入区等待。一旦对象锁被其他线程释放,立即参与竞争。

拥有者(The Owner):表示某一线程成功竞争到对象锁。

等待区(Wait Set):表示线程通过对象的object.wait()方法,释放对象的锁,并在等待区等待被唤醒。

从图中可以看出,一个 Monitor在某个时刻,只能被一个线程拥有,该线程就是 Active Thread,而其它线程都是 Waiting Thread,分别在两个队列 Entry Set和 Wait Set里面等候。

在 Entry Set中等待的线程动作是 Waiting for monitor entry。

在 Wait Set中等待的线程动作是 in Object.wait()。当一个线程申请进入临界区时,它就进入了 Entry Set队列。

(我们称被 synchronized保护起来的代码段为临界区。当一个线程申请进入临界区时,它就进入了 “Entry Set ”队列)

线程状态:

NEW:未启动的。不会出现在Dump中。

RUNNABLE:在虚拟机内执行的,运行中状态。The Owner区

BLOCKED:受阻塞并等待监视器锁。在Entry Set区等锁。

WATING:无限期等待另一个线程执行特定操作。在Wait Set区等待某个condition或monitor发生,一般停留在wait()等语句里。

TIMED_WATING:有时限的等待另一个线程的特定操作。在Wait Set区和WAITING的区别是wait() 等语句加上了时间限制 wait(timeout)。

TERMINATED:已退出的。

调用修饰

表示线程在方法调用时,额外的重要的操作。修饰上方的方法调用。

locked <地址> 目标:使用synchronized申请对象锁成功,监视器的拥有者。The Owner区。

waiting to lock <地址> 目标:使用synchronized申请对象锁未成功,在Entry Set区等锁。线程状态为Blocked

waiting on <地址> 目标:使用synchronized申请对象锁成功后,释放锁,在Wait Set区等锁。线程状态为WAITING或TIMED_WATING

parking to wait for <地址> 目标:调用了park(),在Wait Set区,等待许可。

(park是基本的线程阻塞原语,不通过监视器在对象上阻塞。

park: 进入WAITING状态,对比wait不需要获得锁就可以让线程WAITING,通过unpark唤醒)

线程动作

线程状态产生的原因。

runnable:The Owner区,状态RUNNABLE

in Object.wait():调用wait(),Wait Set区,状态为WAITING或TIMED_WAITING,修饰waiting on

waiting for monitor entry:等锁,Entry Set区,状态BLOCKED,修饰waiting to lock

waiting on condition:因某种条件被park,Wait Set区,状态为parking to wait for

sleeping:休眠的线程,调用了Thread.sleep()

总结

1、查看线程dump,先看线程状态/线程动作(比较直观),可以确定线程目前处于哪个阶段。然后看调用修饰及锁情况,基本就可以确定次线程是否有问题;

2、可以短时间(可能有问题的时间段)内多次打印线程快照,然后查看可能有问题的某一线程在这几次的情况,可以有效查找问题。

三、jps

类似Linux命令ps

参考 Java命令学习系列(一)——Jps

./jps

./jps -q

./jps -m

./jps -l

./jps -v

一、top(Linux命令)

执行top命令:  (查看进程15477的详细情况,下文用到)

系统信息(前五行):

第1行:Top 任务队列信息(系统运行状态及平均负载),与uptime命令结果相同。

第1段:系统当前时间,例如:16:07:37

第2段:系统运行时间,未重启的时间,时间越长系统越稳定。

格式:up xx days, HH:MM

例如:241 days, 20:11, 表示连续运行了241天20小时11分钟

第3段:当前登录用户数,例如:1 user,表示当前只有1个用户登录

第4段:系统负载,即任务队列的平均长度,3个数值分别统计最近1,5,15分钟的系统平均负载

系统平均负载:单核CPU情况下,0.00 表示没有任何负荷,1.00表示刚好满负荷,超过1侧表示超负荷,理想值是0.7;

多核CPU负载:CPU核数 * 理想值0.7 = 理想负荷,例如:4核CPU负载不超过2.8何表示没有出现高负载。

第2行:Tasks 进程相关信息

第1段:进程总数,例如:Tasks: 231 total, 表示总共运行231个进程

第2段:正在运行的进程数,例如:1 running,

第3段:睡眠的进程数,例如:230 sleeping,

第4段:停止的进程数,例如:0 stopped,

第5段:僵尸进程数,例如:0 zombie

第3行:Cpus CPU相关信息,如果是多核CPU,按数字1可显示各核CPU信息,此时1行将转为Cpu核数行,数字1可以来回切换。

第1段:us 用户空间占用CPU百分比,例如:Cpu(s): 12.7%us,

第2段:sy 内核空间占用CPU百分比,例如:8.4%sy,

第3段:ni 用户进程空间内改变过优先级的进程占用CPU百分比,例如:0.0%ni,

第4段:id 空闲CPU百分比,例如:77.1%id,

第5段:wa 等待输入输出的CPU时间百分比,例如:0.0%wa,

第6段:hi CPU服务于硬件中断所耗费的时间总额,例如:0.0%hi,

第7段:si CPU服务软中断所耗费的时间总额,例如:1.8%si,

第8段:st Steal time 虚拟机被hypervisor偷去的CPU时间(如果当前处于一个hypervisor下的vm,实际上hypervisor也是要消耗一部分CPU处理时间的)

第4行:Mem 内存相关信息(Mem: 12196436k total, 12056552k used, 139884k free, 64564k buffers)

第1段:物理内存总量,例如:Mem: 12196436k total,

第2段:使用的物理内存总量,例如:12056552k used,

第3段:空闲内存总量,例如:Mem: 139884k free,

第4段:用作内核缓存的内存量,例如:64564k buffers

第5行:Swap 交换分区相关信息(Swap: 2097144k total, 151016k used, 1946128k free, 3120236k cached)

第1段:交换区总量,例如:Swap: 2097144k total,

第2段:使用的交换区总量,例如:151016k used,

第3段:空闲交换区总量,例如:1946128k free,

第4段:缓冲的交换区总量,3120236k cached

进程信息:

在top命令中按f按可以查看显示的列信息,按对应字母来开启/关闭列,大写字母表示开启,小写字母表示关闭。带*号的是默认列。

A: PID = (Process Id) 进程Id;

E: USER = (User Name) 进程所有者的用户名;

H: PR = (Priority) 优先级

I: NI = (Nice value) nice值。负值表示高优先级,正值表示低优先级

O: VIRT = (Virtual Image (kb)) 进程使用的虚拟内存总量,单位kb。VIRT=SWAP+RES

Q: RES = (Resident size (kb)) 进程使用的、未被换出的物理内存大小,单位kb。RES=CODE+DATA

T: SHR = (Shared Mem size (kb)) 共享内存大小,单位kb

W: S = (Process Status) 进程状态。D=不可中断的睡眠状态,R=运行,S=睡眠,T=跟踪/停止,Z=僵尸进程

K: %CPU = (CPU usage) 上次更新到现在的CPU时间占用百分比

N: %MEM = (Memory usage (RES)) 进程使用的物理内存百分比

M: TIME+ = (CPU Time, hundredths) 进程使用的CPU时间总计,单位1/100秒

b: PPID = (Parent Process Pid) 父进程Id

c: RUSER = (Real user name)

d: UID = (User Id) 进程所有者的用户id

f: GROUP = (Group Name) 进程所有者的组名

g: TTY = (Controlling Tty) 启动进程的终端名。不是从终端启动的进程则显示为 ?

j: P = (Last used cpu (SMP)) 最后使用的CPU,仅在多CPU环境下有意义

p: SWAP = (Swapped size (kb)) 进程使用的虚拟内存中,被换出的大小,单位kb

l: TIME = (CPU Time) 进程使用的CPU时间总计,单位秒

r: CODE = (Code size (kb)) 可执行代码占用的物理内存大小,单位kb

s: DATA = (Data+Stack size (kb)) 可执行代码以外的部分(数据段+栈)占用的物理内存大小,单位kb

u: nFLT = (Page Fault count) 页面错误次数

v: nDRT = (Dirty Pages count) 最后一次写入到现在,被修改过的页面数

y: WCHAN = (Sleeping in Function) 若该进程在睡眠,则显示睡眠中的系统函数名

z: Flags = (Task Flags <sched.h>) 任务标志,参考 sched.h

X: COMMAND = (Command name/line) 命令名/命令行

参考  Linux性能分析工具top命令详解

执行top -Hp PID,如 top -Hp 15477

查看某进程中的线程  注:此时PID是线程id

如线程15571有异常需要查看,使用jstack打印堆栈,查看线程15571状态(15571 16进制=3cd3)

二、jstack

参考 java命令--jstack 工具

  Java命令学习系列(二)——Jstack

需要到JDK安装目录下使用(可通过ps x查看java进程,得到jdk安装目录)

./jstack PID(进程id)  ./jstack 15477

红框中即为线程15571(16进制=3cd3) 状态

分析jstack日志:

监视器Monitor:

Monitor是 Java中用以实现线程之间的互斥与协作的主要手段,它可以看成是对象或者 Class的锁。

每一个对象都有,也仅有一个 monitor。

下面这个图,描述了线程和Monitor之间关系,以及线程的状态转换:

进入区(Entrt Set):表示线程通过synchronized要求获取对象的锁。如果对象被锁住,则进入拥有者;否则在进入区等待。一旦对象锁被其他线程释放,立即参与竞争。

拥有者(The Owner):表示某一线程成功竞争到对象锁。

等待区(Wait Set):表示线程通过对象的object.wait()方法,释放对象的锁,并在等待区等待被唤醒。

从图中可以看出,一个 Monitor在某个时刻,只能被一个线程拥有,该线程就是 Active Thread,而其它线程都是 Waiting Thread,分别在两个队列 Entry Set和 Wait Set里面等候。

在 Entry Set中等待的线程动作是 Waiting for monitor entry。

在 Wait Set中等待的线程动作是 in Object.wait()。当一个线程申请进入临界区时,它就进入了 Entry Set队列。

(我们称被 synchronized保护起来的代码段为临界区。当一个线程申请进入临界区时,它就进入了 “Entry Set ”队列)

线程状态:

NEW:未启动的。不会出现在Dump中。

RUNNABLE:在虚拟机内执行的,运行中状态。The Owner区

BLOCKED:受阻塞并等待监视器锁。在Entry Set区等锁。

WATING:无限期等待另一个线程执行特定操作。在Wait Set区等待某个condition或monitor发生,一般停留在wait()等语句里。

TIMED_WATING:有时限的等待另一个线程的特定操作。在Wait Set区和WAITING的区别是wait() 等语句加上了时间限制 wait(timeout)。

TERMINATED:已退出的。

调用修饰

表示线程在方法调用时,额外的重要的操作。修饰上方的方法调用。

locked <地址> 目标:使用synchronized申请对象锁成功,监视器的拥有者。The Owner区。

waiting to lock <地址> 目标:使用synchronized申请对象锁未成功,在Entry Set区等锁。线程状态为Blocked

waiting on <地址> 目标:使用synchronized申请对象锁成功后,释放锁,在Wait Set区等锁。线程状态为WAITING或TIMED_WATING

parking to wait for <地址> 目标:调用了park(),在Wait Set区,等待许可。

(park是基本的线程阻塞原语,不通过监视器在对象上阻塞。

park: 进入WAITING状态,对比wait不需要获得锁就可以让线程WAITING,通过unpark唤醒)

线程动作

线程状态产生的原因。

runnable:The Owner区,状态RUNNABLE

in Object.wait():调用wait(),Wait Set区,状态为WAITING或TIMED_WAITING,修饰waiting on

waiting for monitor entry:等锁,Entry Set区,状态BLOCKED,修饰waiting to lock

waiting on condition:因某种条件被park,Wait Set区,状态为parking to wait for

sleeping:休眠的线程,调用了Thread.sleep()

总结

1、查看线程dump,先看线程状态/线程动作(比较直观),可以确定线程目前处于哪个阶段。然后看调用修饰及锁情况,基本就可以确定次线程是否有问题;

2、可以短时间(可能有问题的时间段)内多次打印线程快照,然后查看可能有问题的某一线程在这几次的情况,可以有效查找问题。

三、jps

类似Linux命令ps

参考 Java命令学习系列(一)——Jps

./jps

./jps -q

./jps -m

./jps -l

./jps -v

四、jmap

参考  Java命令学习系列(三)——Jmap

    java命令--jmap命令使用

jmap -heap PID:堆使用情况

jmap -histo PID:对象情况

(jmap -histo:live 这个命令执行,JVM会先触发gc,然后再统计信息

  重点看项目上的类:[C是字符串数组,String用;[B是字节数组,网络层用到。这两个比较大一般没关系

[C is a char[]

[S is a short[]

[I is a int[]

[B is a byte[]

[[I is a int[][]

技术在于学习 在于实践 在于总结 在于分享

四、jmap

参考  Java命令学习系列(三)——Jmap

    java命令--jmap命令使用

jmap -heap PID:堆使用情况

jmap -histo PID:对象情况

(jmap -histo:live 这个命令执行,JVM会先触发gc,然后再统计信息

  重点看项目上的类:[C是字符串数组,String用;[B是字节数组,网络层用到。这两个比较大一般没关系

[C is a char[]

[S is a short[]

[I is a int[]

[B is a byte[]

[[I is a int[][]

技术在于学习 在于实践 在于总结 在于分享

欢迎工作一到五年的Java工程师朋友们加入Java架构开发: 854393687

群内提供免费的Java架构学习资料(里面有高可用、高并发、高性能及分布式、Jvm性能调优、Spring源码,MyBatis,Netty,Redis,Kafka,Mysql,Zookeeper,Tomcat,Docker,Dubbo,Nginx等多个知识点的架构资料)合理利用自己每一分每一秒的时间来学习提升自己,不要再用"没有时间“来掩饰自己思想上的懒惰!趁年轻,使劲拼,给未来的自己一个交代!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,080评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,422评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,630评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,554评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,662评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,856评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,014评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,752评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,212评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,541评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,687评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,347评论 4 331
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,973评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,777评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,006评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,406评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,576评论 2 349

推荐阅读更多精彩内容