java系统内存占用高----慢慢寻找之路

近期发现很多系统在预发和线上相继出现内存占用很高的情况,但是没有内存溢出,一直到吃光内存为止,然后就开始了慢慢寻找之路 .

在此先感谢https://coldwalker.com/2018/08//troubleshooter_native_memory_increase/ 该文的大佬,提供了很多思路,路很曲折,最终是找到了原因,下面记录一下我寻找问题的过程,希望能帮助有需要的人.

从表象看

内存只剩下100多M

单个系统

系统常驻内存占用4.7G

可是jvm参数设置

2048M

加上元空间+xss等一些开销总共也就3G不到通过 jcmd pid VM.native_memory summary 看到大概在2.8G的样子

所以初步怀疑常驻内存是由堆外内存导致的,但是还是dump了看了一下

发现对象多的基本是string和char(其实这两个都是一样的),同时堆内存总共就172M

dump文件占用高的对象

堆内存总共大小

directbytebuffer对象也不多,占用也很少

然后照例分析了下线程也没发现阻塞的线程

以上分析得出:堆内内存并没有发生泄漏,很可能程序本身问题不大

然后分析堆外内存,通过BTrace来追踪下堆外内存分配

然后追踪了2个小时

全都是netty打出来的

打出了5条jboss.netty的,这个有点奇怪,公司已经升级了dubbo,dubbo2.7.3用的应该是netty4.x 而jboss.netty是3.x的情况下来的,所以怀疑会不会是jetty出来的

继续追踪,这个时候就怀疑不是程序导致的堆内和堆外的问题,这个常驻内存,是由于触发了linux某个问题导致的,然后这个时候就使用nmt来追踪下jvm在某段时间里面和内存增长.果然不出所料,堆增长大概在200M的样子,常驻内存却增长了2.5G的样子,这就说明应该是某个匿名内存块的问题.

这个时候就需要监控linux系统层面的内存分配了,使用pmap的命令来查找内存分配.

果然发现：

一堆连续的内存块

到这里相信网上很多教程,分析是由于glibc的效率问题,肯定是由于某处malloc申请的内存很快,free的速度跟不上,导致的,网上很多使用tcmalloc来代替的.

抱着试试看的心态去替换了(怎么替换文章一开头的大神的文章有分析),发现启动内存还是会飙升,这个时候基本处于放弃了.

死马当活马医,这个时候反正也装了谷歌的gpref，那就分析下heap

生成heap

从这些个heap中分析,内存吃掉89%的,居然是有一个叫updatewindow的一个函数,好多heap文件都是这个导致的（忘记保留文件了）,这个时候好像看到了希望,然后就去找了下,发现

当jetty的某个版本下,如果出现一些文件流的copy等的方式,可能是触发ServiceLoader的这个bug

目前公司的用是jetty9+jdk8.x 然后去搜了一些文章,发现确实有这个问题,然后看了下评论

看样子jdk9已经解决

同时jetty的作者在github上说明,问题是jdk导致的,他无法处理

所以没有换jetty版本,最终 jetty9+jdk9.x

最后用gperf监控,发现updatewindow不产生了,问题得到解决

但是最总代码中的哪里导致触发jdk8的bug,就不得而知了,可能后面还需要查下,但是公司引用开源的东西比较多,所以很难定位