下面我们来说一下怎么排查线上的问题。我们经常遇到某一个时候,线上的服务突然变慢,或者突然out of memeory了,这个时候你知道怎么排查线上的问题吗,还有突然cpu利用率变高,磁盘io占用过高,网络延迟变长,你都知道怎么排查吗?现在我们就来看一下线上问题是怎么排查的。
先来看一下线上服务变慢的问题,我们通常会想到要看一下gc的情况,先用jps命令看一下服务的pid
然后用jstat -gcutil pid查看gc的次数
当然你也可以用jstat gcutil pid 2000,每2秒打印一次gc的次数和时间
当然这不是真实的线上环境,先来说一下每行的意义
S0C、S1C、S0U、S1U:Survivor 0/1区容量(Capacity)和使用量(Used)
EC、EU:Eden区容量和使用量
OC、OU:年老代容量和使用量
PC、PU:永久代容量和使用量
YGC、YGT:年轻代GC次数和GC耗时
FGC、FGCT:Full GC次数和Full GC耗时
GCT:GC总耗时
在我们用jstat看了gc的情况后,就能判断是出现了什么问题,有可能是old区增长过快,也有可能是full gc频繁,当然full gc频繁有可能是因为old区增长过快导致的,然后我们就可以来看一下堆内具体的情况了。
先用jmap -heap pid看一下堆内的整体情况是什么样的
这样整个堆的情况就能看到了,然后可以用jmap -histo:live pid查看所有的存活对象。
需要注意的是,执行jmap命令会引起一次full gc。
我们还可以用jmap -dump:live,format=b,file=heap.hprof pid来生成堆dump文件,这个命令会把所有存活的对象dump到文件中,我们可以把dump文件下载到本地,用jvisualvm打开dump文件
在类的分类下,可以看到所有jvm进程中的类,类的实例数,可以很清楚的看到哪些类的对象占用的堆内存比较多,可以右击每个类,选择在实例视图中显示,就可以看到每个类的对象的具体信息了。
在实例视图中,我们可以看到每个实例的数量,字段信息,在引用一栏中,可以看到所有对象的引用,查找到这个对象的gc root,方便分析问题。
我们还可以通过jvisualvm查看jvm进程的堆内存运行状态
还可以查看线程的运行状态
当然,也可以通过top先获取到进程pid,然后用top -Hp pid获取占用cpu最高的线程的id,然后用jstack pid查看线程的执行状态。
下面我们来看一下网络延迟变长的排查方法。
先用netsat -ntpl查看所有网络请求的状态,这里要了解tcp的建立连接过程和断开连接过程,具体的就不说了
比如我们只想看80端口的网络请求,可以用netstat -ntpl | grep -w 80来看80端口的网络请求
当然,还有很多排查线上问题的方法,这里就不再介绍了。