记一次由于noclass gc引起的JDK8GC bug

前言

    其实这个问题在我负责的项目里面已经出现过一次了,但由于第一次出现并解决的时候我并不负责这个项目,导致印象不是很深,但没有想到今天在测试环境又复现了,于是我相当于又重复了一遍之前的排查过程,当然也请教了其他的同事,所以我觉得有必要记录下来(事不过三,还是没有记住),也算是一次GC问题排查的经验了。

问题发生

    大概11点30左右,有同事给我反馈是调用我的服务陆续开始有readTime out 产生,导致测试环境整体数据查询失败,QA无法进行测试,让我帮忙处理一下,于是我登录上QA的测试机,准备查看一下服务状态。

access日志

    先查看了一下tomcat的access日志发现10点40之后服务就不对外响应了,第一时间感觉应该是服务僵死了,然后开始排查GC状态。


GC排查

      1.jstat -gcutil pid 1000

            稍微解释一下这个命令 每隔1秒打印当前jvm进程的内存分配占比及gc信息 ,发现GC信息停滞,整个GC进程已经不工作了,于是我认为可能是由于full GC的问题导致stop the world 使GC过程缓慢(当时询问了一下同事,正巧QA同事在进行大数据量下载测试),于是我决定导出当前dump信息进行分析

      2.jmap -dump:format=b,file=xxx.hprof pid 

            发现连接不上,于是使用-F 强制dump,dump开始进行,但进行到一半左右,报出异常

 发现dump不下来之后,查了一下异常信息,发现很多说是由于JDKbug引起,但感觉没有一个人说明白到底是为什么(这个我没有查出来原因,欢迎大家给出方案,我也会继续查一下),dump失败之后我决定先看一下是否有线程hang住,于是用jstack查看。

3.jstack -F pid 

    发现除了socket线程之后,其他线程都blocked,感觉这个问题还是没有定位,决心继续dump内存信息(其实这个时候思想已经出问题了,正确做法是这个时候应该使用top查看是不是有线程占用了cpu导致其他线程无法继续运行)


但是dump信息一直导不出来,到了这个时候有点懵圈了 三板斧打完,没了,此时已经是午饭过后(公司吃饭比较早 当然是先吃完饭了再回来排查),一看时间已经2点20左右了,此时QA同学又开始催了,本着要弄明白再重启的决心,我决定场外求助大佬,正巧一个大佬过来商量工作,于是在商量完之后果断向他请教这个问题,大佬看完dump不下来之后认为是JDK出现的bug(不要问我为什么 我也不知道为什么),于是问我能不能使用jstack,我说可以,然后大佬决定先用TOP查看一下机器的资源使用情况。

 4.top 

    先使用top命令发现当前僵死进程占用cpu 99.9%,    然后跟上 top -H -p 发现有一个线程占用cpu高达98以上,于是感觉是这个线程的问题

5.pstack

    pstack 26846(僵死的进程号) 查看进程的线程信息 发现该线程为jvm线程而非业务线程,此时大佬给我说这是JDK的一个bug,具体原因他忘记了,这边有个同事之前遇见过,这个bug会使类卸载失败,从而导致cpu100%空转,这个时候我突然想起之前听同事说过以前我们项目出现过这个问题,当时公司一位大佬帮忙排查并解决之后,还在公司的微信公众号发表了一篇文章,于是感觉去看了一下,发现原因一模一样,这边QA同学将之前出问题的jvm启动配置原封不动的copy过来,然后启动了我的服务(所以问题归纳总结感觉还是很有必要)


问题原因及解决

    这个图我是从大佬的文章中拿的,因为我在解决问题的时候 并没有保存之前的配置,所以就用了这个图表达了,但是这2个服务配置是一模一样的,出问题的服务就是从这个服务copy的配置。

      Xms  初始化堆内存大小

      Xmx 最大堆内存大小 (大小设置为一样可防止JVM动态调整影响运行时性能)

      Xmn 新生代大小(官方推荐位 3/8 )

      MetaSpaceSize 初始化元数据区大小

      MaxMetaSpaceSize  元数据区最大大小

      noclassgc 不进行类卸载

      UseConcMarkSweep 使用cms进行老年代gc (附带 jdk8中使用cms的时候 新生代默认为parNew)

    上面指定了noclassgc 即不进行类卸载,但是在JDK中还有一个参数也可以指定是否进行类卸载即

    CMSClassUnloadingEnable,而且在JDK8之后默认该参数为true 即进行类卸载,所以当同时指定这2个参数会发生类卸载失败的情况(在特定版本中 如8u40),解决的办法也很简单 即不设置noclassgc即可,当然如果你想使用这个参数的话 建议升级JDK版本,在8u60之后 问题已经解决,当它设置为false的时候cmsClassUnloadingEnable也会默认设置为false,保证处于同一逻辑下。

    问题解决方案及原因参照我司JAVA大佬的博客-感兴趣的可以微信公众号 -贝壳产品技术 文章为《谜!JVM为何僵死》

总结   

    其实之前也排查过一些简单的gc问题 但是感觉这方面积累还不够,加上自己水平还是比较菜(对,所以我的名字就叫菜菜子),处理一个问题还是需要很久,而且对知识总结较少,之后也会慢慢开始做一些总结性的东西,其实简书我也开通很久了,也是第一篇文章,加油吧,777777(就这样吧 ,我感觉就这样)。    

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,717评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,501评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,311评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,417评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,500评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,538评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,557评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,310评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,759评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,065评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,233评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,909评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,548评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,172评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,420评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,103评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,098评论 2 352

推荐阅读更多精彩内容