前言
其实这个问题在我负责的项目里面已经出现过一次了,但由于第一次出现并解决的时候我并不负责这个项目,导致印象不是很深,但没有想到今天在测试环境又复现了,于是我相当于又重复了一遍之前的排查过程,当然也请教了其他的同事,所以我觉得有必要记录下来(事不过三,还是没有记住),也算是一次GC问题排查的经验了。
问题发生
大概11点30左右,有同事给我反馈是调用我的服务陆续开始有readTime out 产生,导致测试环境整体数据查询失败,QA无法进行测试,让我帮忙处理一下,于是我登录上QA的测试机,准备查看一下服务状态。
access日志
先查看了一下tomcat的access日志发现10点40之后服务就不对外响应了,第一时间感觉应该是服务僵死了,然后开始排查GC状态。
GC排查
1.jstat -gcutil pid 1000
稍微解释一下这个命令 每隔1秒打印当前jvm进程的内存分配占比及gc信息 ,发现GC信息停滞,整个GC进程已经不工作了,于是我认为可能是由于full GC的问题导致stop the world 使GC过程缓慢(当时询问了一下同事,正巧QA同事在进行大数据量下载测试),于是我决定导出当前dump信息进行分析
2.jmap -dump:format=b,file=xxx.hprof pid
发现连接不上,于是使用-F 强制dump,dump开始进行,但进行到一半左右,报出异常
发现dump不下来之后,查了一下异常信息,发现很多说是由于JDKbug引起,但感觉没有一个人说明白到底是为什么(这个我没有查出来原因,欢迎大家给出方案,我也会继续查一下),dump失败之后我决定先看一下是否有线程hang住,于是用jstack查看。
3.jstack -F pid
发现除了socket线程之后,其他线程都blocked,感觉这个问题还是没有定位,决心继续dump内存信息(其实这个时候思想已经出问题了,正确做法是这个时候应该使用top查看是不是有线程占用了cpu导致其他线程无法继续运行)
但是dump信息一直导不出来,到了这个时候有点懵圈了 三板斧打完,没了,此时已经是午饭过后(公司吃饭比较早 当然是先吃完饭了再回来排查),一看时间已经2点20左右了,此时QA同学又开始催了,本着要弄明白再重启的决心,我决定场外求助大佬,正巧一个大佬过来商量工作,于是在商量完之后果断向他请教这个问题,大佬看完dump不下来之后认为是JDK出现的bug(不要问我为什么 我也不知道为什么),于是问我能不能使用jstack,我说可以,然后大佬决定先用TOP查看一下机器的资源使用情况。
4.top
先使用top命令发现当前僵死进程占用cpu 99.9%, 然后跟上 top -H -p 发现有一个线程占用cpu高达98以上,于是感觉是这个线程的问题
5.pstack
pstack 26846(僵死的进程号) 查看进程的线程信息 发现该线程为jvm线程而非业务线程,此时大佬给我说这是JDK的一个bug,具体原因他忘记了,这边有个同事之前遇见过,这个bug会使类卸载失败,从而导致cpu100%空转,这个时候我突然想起之前听同事说过以前我们项目出现过这个问题,当时公司一位大佬帮忙排查并解决之后,还在公司的微信公众号发表了一篇文章,于是感觉去看了一下,发现原因一模一样,这边QA同学将之前出问题的jvm启动配置原封不动的copy过来,然后启动了我的服务(所以问题归纳总结感觉还是很有必要)
问题原因及解决
这个图我是从大佬的文章中拿的,因为我在解决问题的时候 并没有保存之前的配置,所以就用了这个图表达了,但是这2个服务配置是一模一样的,出问题的服务就是从这个服务copy的配置。
Xms 初始化堆内存大小
Xmx 最大堆内存大小 (大小设置为一样可防止JVM动态调整影响运行时性能)
Xmn 新生代大小(官方推荐位 3/8 )
MetaSpaceSize 初始化元数据区大小
MaxMetaSpaceSize 元数据区最大大小
noclassgc 不进行类卸载
UseConcMarkSweep 使用cms进行老年代gc (附带 jdk8中使用cms的时候 新生代默认为parNew)
上面指定了noclassgc 即不进行类卸载,但是在JDK中还有一个参数也可以指定是否进行类卸载即
CMSClassUnloadingEnable,而且在JDK8之后默认该参数为true 即进行类卸载,所以当同时指定这2个参数会发生类卸载失败的情况(在特定版本中 如8u40),解决的办法也很简单 即不设置noclassgc即可,当然如果你想使用这个参数的话 建议升级JDK版本,在8u60之后 问题已经解决,当它设置为false的时候cmsClassUnloadingEnable也会默认设置为false,保证处于同一逻辑下。
问题解决方案及原因参照我司JAVA大佬的博客-感兴趣的可以微信公众号 -贝壳产品技术 文章为《谜!JVM为何僵死》
总结
其实之前也排查过一些简单的gc问题 但是感觉这方面积累还不够,加上自己水平还是比较菜(对,所以我的名字就叫菜菜子),处理一个问题还是需要很久,而且对知识总结较少,之后也会慢慢开始做一些总结性的东西,其实简书我也开通很久了,也是第一篇文章,加油吧,777777(就这样吧 ,我感觉就这样)。