最近在查一个堆外内存泄露的问题,通过-XX:MaxDirectMemorySize仍然限制不住堆外内存的上涨,一直到机器物理内存爆满,被oom killer。
上一篇关于MaxDirectMemorySize的设置中讲过MaxDirectMemorySize限制了DirectByteBuffer的内存申请,但是它只是通过java.nio.Bits类中reservedMemory,totalCapacity的值去做计算,真正申请堆外内存空间的是sun.misc.Unsafe类。也就是说,用户完全可以通过其他方式使内存泄露。
这里就遇到了一个由于句柄泄露导致内存泄露的问题。
通过mat查看dump文件,
由于句柄泄露导致生成大量的EPollArrayWrapper对象。
这个对象占了多少内存呢,来看下构造函数:
...省略大量代码
static final int SIZE_EPOLLEVENT = sizeofEPollEvent();
static final int NUM_EPOLLEVENTS = Math.min(fdLimit(), 8192);
private static native int sizeofEPollEvent();
private static native int fdLimit();
EPollArrayWrapper() {
// creates the epoll file descriptor
epfd = epollCreate();
// the epoll_event array passed to epoll_wait
int allocationSize = NUM_EPOLLEVENTS * SIZE_EPOLLEVENT;
pollArray = new AllocatedNativeObject(allocationSize, true);
pollArrayAddress = pollArray.address();
for (int i=0; i<NUM_EPOLLEVENTS; i++) {
putEventOps(i, 0);
putData(i, 0L);
}
// create idle set
idleSet = new HashSet<SelChImpl>();
}
...
class NativeObject {
...
protected NativeObject(int var1, boolean var2) {
if(!var2) {
this.allocationAddress = unsafe.allocateMemory((long)var1);
this.address = this.allocationAddress;
} else {
int var3 = pageSize();
long var4 = unsafe.allocateMemory((long)(var1 + var3));
this.allocationAddress = var4;
this.address = var4 + (long)var3 - (var4 & (long)(var3 - 1));
}
}
...
}
EPollArrayWrapper在新建的时候创建了一个NativeObject,
而NativeObject通过unsafe.allocateMemory申请了堆外内存。
其中allocationSize = NUM_EPOLLEVENTS * SIZE_EPOLLEVENT
- NUM_EPOLLEVENTS
min(句柄最大数量,8192),一般服务器句柄数设置的都比较大,这里选择8192 - SIZE_EPOLLEVENT
native函数,看下它的结构
typedef union epoll_data {
void *ptr;
int fd;
__uint32_t u32;
__uint64_t u64;
} epoll_data_t;//保存触发事件的某个文件描述符相关的数据
struct epoll_event {
__uint32_t events; /* epoll event */
epoll_data_t data; /* User data variable */
};
epoll_data: union取最大值,64位整形,8字节
epoll_event: 4字节(32位整形)+4字节(补齐)+8字节 = 16字节
16*8192 = 128k
可以看到,一个EpollSelector占了约128k堆外内存,当句柄泄露时,堆外内存会随着句柄一起上涨。
总结
当遇到内存泄露的时候,首先要确定是堆内泄露还堆外,最直接的方式就是设置Xmx,查看物理内存占用是否超过JVM峰值,如果内存总量一直保持在峰值,且fullGC后不下降,那么可以猜测是堆内内存泄露,可以通过dump文件来分析对象。
如果内存总量超过Xmx,可以设置-XX:MaxDirectMemorySize,查看内存总量是否等于堆内+MaxDirectMemorySize,如果可以通过MaxDirectMemorySize限制内存上涨,那么可以猜测是使用了DirectByteBuffer没有合理回收导致的。如果还不能限制,那么就有可能是使用了Unsafe,需要看下第三方工具或中间件是否使用不当。