服务假死问题解决过程实记(一)——问题发现篇

一、前言

自三月六日起,笔者所在业务组的开发环境上出现了若干次服务假死,页面请求无响应的现象。由于笔者在三月六日之前,对 JVM, Tomcat,以及数据库连接池没有丝毫调优经验,所以从三月六日开始的所有与解决该问题的过程,都会记录到本文,以记录并纪念笔者的第一次服务调优经历。

链接:

《服务假死问题解决过程实记(一)——问题发现篇》
《服务假死问题解决过程实记(二)——C3P0 数据库连接池配置引发的血案》
《服务假死问题解决过程实记(三)——缓存问题优化》

二、03.06 记 Tomcat 的一次假死问题解决经历

注:

  1. 本文是一个前序,记录问题出现的现象,以及猜测的原因。本文中最后猜测出现的结论,并非服务假死的原因所在。
  2. 2019.03.30 记,该现象的源头是因为 C3P0 参数配置问题,现已解决该数据库连接问题。但这只是问题解决过程中顺手解决的另一个问题而已,服务假死的原因应该是因为其他原因,该问题并非源头。

1. 测试环境服务假死

现象:未知具体操作,但出现 Tomcat 假死情况,无法使用 jmap, jstat, jstack 指令以及 jvisualVM 工具,且使用 netstat -ano | findstr "12808" 指令后,出现七八个 CLOSE_WAIT 连接。

猜测原因:

  1. ClassLoader 的更换,导致方法区溢出?
  2. 反射使用太多?

待解决方法:

  1. 重启服务,待正常运行过程中使用 JVisualVM 监控,看方法区以及堆区的大小变化;
  2. 如果还需要重新启动服务,加入虚拟机 GC 参数:-XX:HeapDumpOnOutOfMemoryError;
  3. 如果确定是 ClassLoader 堆积的问题,则加入类卸载参数:-Xnoclassgc;

相关参考连接:

  1. 关于 CLOSE_WAIT 状态,来自于关闭 TCP 连接的四次握手:
  1. 《netstat监控大量ESTABLISHED连接数和TIME_WAIT连接数题解决》

2. 再次假死,并成功定位问题

由于昨天有了一次假死,且假死过程中已经不能使用 JVisualVM 连接 Tomcat 服务,所以在服务重启之前,我就已经打开了 JVisualVM 远程监控。但到了下午 17:24 再次假死。

(1) 第一个排查方向:方法区与堆内存

师父一直怀疑是因为业务原因,使用过自定义的 ClassLoader,并存在稍微频繁加载类的可能性,所以他的检测重点在于方法区。但开 JVisualVM 发现方法区大小一直稳定在 150+M,从始至终很稳定的很小幅度增长,远没有到我们设置的 MaxPermSize = 500M。此外给虚拟机设置的 -Xmx:4096M,但实际使用堆内存只有 800M 左右。

(2) 第二个重点排查方向:激增的线程数量

我的监控重点,在于观察到 17:24 线程数飙升,从 240 个线程瞬间涨到了 400+ 个。打开 JVisualVM 的线程监控界面,发现几乎同一时间 pool-22, pool-37 创建了大量线程。使用线程 Dump,读取 Dump 文件,发现大部分 BLOCK 的线程都是汇总数据的内容,以及在 save, update, delete 方法上加的 After AOP 中的异步日志记录方法。所以线程暴增的原因,肯定和 17:24 出现的某种 save 操作有关。果然在我写的记录 save 方法操作记录的日志文件,结合项目日志,了解到 17:24 分有测试人员调用 XML 解析入库的方法,且调用了十几种不同的表的插入操作,估算了一下自己写的代码,大概一次 save 操作应该会加入十一二个 task 到阻塞任务队列中,所以线程数量暴增的问题定位到了。

但是,以前测试人员也做过很多次类似的解析 XML 入库的操作,并没有引发过 Tomcat 假死的错误。我感觉很奇怪,所以还是只把线程数量激增的情况当成了一种现象,并未完全它是问题的源头。

(3) 第三个重点排查方向:CLOSE_WAIT 数量

上网搜 "Tomcat 假死",帖子 《tomcat假死之谜?》 介绍,会出现 100+ 个 CLOSE_WAIT 的现象,导致了 Tomcat 崩溃。那时候老子还不会使用 netstat 指令,甚至连 CLOSE_WAIT 都是前一天晚上临时抱佛脚学的,就依葫芦画瓢输了个 netstat -ano | findstr "CLOSE_WAIT",结果出现只有 10 个左右的 CLOSE_WAIT 是和我们的服务有关的,虽然有了找到错误的那么点儿意思,但 10 个 CLOSE_WAIT 也太没牌面了吧……

(4) 第四个重点排查方向:TIME_WAIT 数量

大概有一个多小时纠结在 CLOSE_WAIT 上面,后来还是尝试着按照帖子的做法来做,开始监控 TIME_WAIT。改了个 netstat 指令:netstat -ano | findstr "TIME_WAIT"结果发现有 200+ 个 TIME_WAIT!!

”终于上量级了!!有牌面了啊妈蛋!!“——笔者的内心世界

TIME_WAIT 的内容是啥呢?大致内容都是:

......
tcp    16.12.104.133:55177    16.12.181.151:1521   TIME_WAIT   
tcp    16.12.104.133:56430    16.12.181.151:1521   TIME_WAIT   
tcp    16.12.104.133:55659    16.12.181.151:1521   TIME_WAIT   
tcp    16.12.104.133:55141    16.12.181.151:1521   TIME_WAIT   
tcp    16.12.104.133:56582    16.12.181.151:1521   TIME_WAIT   
tcp    16.12.104.133:55240    16.12.181.151:1521   TIME_WAIT   
tcp    16.12.104.133:54811    16.12.181.151:1521   TIME_WAIT   
tcp    16.12.104.133:55772    16.12.181.151:1521   TIME_WAIT   
......

重点来了,虽然不懂 TIME_WAIT,但大片的 1521 也太醒目了吧啊喂!!

1521 是确实是 Oracle 默认的连接端口号,而且对应的 16.12.181.151 也确实是我们要连的数据库,但是我们的服务又不是直连数据库的,怎么会出现这么多的 1521 端口的 TIME_WAIT 呢?莫非是 RPC?不对,我们的 RPC 应该是直连 DAO 服务的,DAO 服务才会连接数据库,所以肯定也不会是 RPC 的原因。

忽然我想到了一个很重要的事情:由于我们的资源有限,只分配了两台虚拟机,对于我们这个有四个服务 (两个应用服务,两个 DAO 服务) 的业务组,我们把应用服务和 DAO 服务交叉配置,所以在我们服务部署的 16.12.104.133 虚拟机上,确实是有一个 DAO 服务的,而且和我们的应用服务部署在同一个 Tomcat 下

(5) 确定问题所在的证据

首先,我先检查其他业务组的正常 DAO 服务。远程连到其他正常 DAO 服务的虚拟机上输入同样的指令 netstat -ano | findstr "TIME_WAIT",以及 netstat -ano | findstr "CLOSE_WAIT",都不会出现几行。所以可以确定这个 DAO 服务肯定是有异常的。

然后,端口数量。还是刚才 16.12.133.104 上连接数据库的端口数,是很明显的 +1 递增趋势,最大的端口数基本上是 65400+ 左右。我专门查了一下端口最大连接数量,知道了 TCP 最大连接数量是 65536 个,所以这种占据了大量端口的现象,一定是异常!!

确认了异常的原因,是部署在 16.12.104.133 上同 Tomcat 下的 DAO 层服务的数据库连接异常。这样也可以解释,为什么 JVM 监控正常,GC 情况无异常,且在假死现象出现后甚至无法使用 JVisualVM 连接服务的诸多情况都可以解释了。

注:
值得一说的是,对于基于 TCP 的 HTTP 协议,关闭 TCP 连接的是 Server 端,这样,Server 端会进入 TIME_WAIT 状态,可想而知,对于访问量大的 Web Server,会存在大量的 TIME_WAIT 状态,假如 server 一秒钟接收 1000 个请求,那么就会积压 240*1000=240000 个 TIME_WAIT 的记录,维护这些状态给 Server 带来负担。当然现代操作系统都会用快速的查找算法来管理这些 TIME_WAIT,所以对于新的 TCP 连接请求,判断是否 hit 中一个 TIME_WAIT 不会太费时间,但是有这么多状态要维护总是不好。
HTTP 协议 1.1 版规定 default 行为是 Keep-Alive,也就是会重用 TCP 连接传输多个 request/response,一个主要原因就是发现了这个问题。


未完待续。下篇《服务假死问题解决过程实记(二)——C3P0 数据库连接池配置引发的血案》

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,951评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,606评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,601评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,478评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,565评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,587评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,590评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,337评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,785评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,096评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,273评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,935评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,578评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,199评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,440评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,163评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,133评论 2 352

推荐阅读更多精彩内容