在Java中有一套完整的内存动态分配和垃圾收集(Garbage Collection,GC)机制,可以实现自动化的内存动态分配和垃圾回收,了解这一机制,我们可以在排查内存溢出、内存泄漏问题时,实现系统更高并发量时对这一自动化技术实施监控和调节。
在Java内存运行时,程序计数器、虚拟机栈、本地方法栈的内存分配和回收都是已知确定的,因此不用过多考虑回收问题。而Java堆和方法区内存的分配和回收是动态的,垃圾收集器关注的是这部分的内存。
判断对象是否死亡
判断对象是否死亡有两种算法:
(1)引用计数算法:给对象添加一个计数器,当有一个地方引用它时计数器值加1,当引用失效时,计数器值减1。计数器为0的对象是不再被引用的,当该算法无法解决的是对象之间相互循环引用的问题,关于这个问题,可参考:http://blog.csdn.net/u010253968/article/details/51160703
(2)可达性分析算法:当一个对象没有被称为“GC Roots”的对象直接间接引用时,及GC Roots到该对象不可达时,此对象是不可用的。例如:GC Roots对象引用了object1,object1引用了object2,那么object1和object2都是可用的,因为它们都被GC Roots对象直接或间接引用了。而如果object3引用了object4,object4引用了object5,尽管它们都有被其他对象引用,但它们都没有被GC Roots对象引用,所以它们都是不可用的。而GC Roots对象包括以下几种:
a.虚拟机栈(栈帧中的本地变量表)中引用的对象
b.方法区中类静态属性引用的对象
c.方法区中常量引用的对象
d.本地方法栈中JNI(Native方法)引用的对象
引用
引用分为四种:
(1)强引用:程序代码之中普遍存在的,只要强引用还在,垃圾收集器永远不会回收被引用的对象
(2)软引用:有用但并非必要的对象,在系统将要发生内存溢出异常之前,将会把这些对象列入回收范围进行第二次回收
(3)弱引用:被弱引用关联的对象只能生存到下一次垃圾收集发生之前
(4)虚引用:虚引用不会对对象的生存周期构成影响,也无法通过虚引用来获取一个对象,虚引用的唯一目的就是能在这个对象被收集器回收时收到一个系统通知
对象的自我拯救
在可达性分析算法中的不可达对象,还会经过一次筛选,,筛选出有必要执行finalize()方法的对象,然后虚拟机会触发这个方法,但并不一定会等待到它运行结束。如果对象要在finalize()方法中拯救自己,可以在这个方法中重新与GC Roots对象建立直接或间接的关联就可以存活。但在实际开发中因尽量避免该方法
回收方法区
在方法区中垃圾收集效率比较低,一次能回收的空间比较少,主要回收两部分内容:废弃常量和无用的类,类需要满足以下条件才能算是无用的类:
(1)该类的所有实例都已经被回收,也就是Java堆中不存在该类的任何实例
(2)加载该类的ClassLoader已经被回收
(3)该类对应的java.lang.Class对象没有在任何地方被引用,无法在任何地方通过反射访问该类的方法
垃圾收集算法
标记-清除算法:首先标记出需要回收的对象,然后统一回收,是最基本的收集算法,其它算法是对其不足进行改进而得到的。主要有两个不足:一是效率不高,二是会产生大量不连续的空间碎片
复制算法:将内存分为两块,每次只使用其中一块,当这一块内存用完了,就把存活的对象复制到另一块,然后清空使用过的内存。这种算法的代价是将内存缩小为原来的一半
标记-整理算法:标记过程与“标记-清理”算法一样,但后续步骤不是直接对可回收对象进行清理,而是所有存活对象都向一端移动,然后直接清理边界以外的内存
分代收集算法:把Java堆分为新生代和老年代,对应每次垃圾收集都有大量对象死去的新生代采用复制算法,这样复制的成本小;而对于对象存活率高的老年代,使用“标记-清除”算法或者“标记-整理”进行回收
HotSpot的算法实现
HotSpot虚拟机在实现对象存活判定算法和垃圾回收算法时,必须保证虚拟机高效运行。
枚举根节点:
枚举根节点对时间的敏感性:一方面,在垃圾回收过程中,用可达性分析算法判断对象是否存活时,为保证判断结果的准确性,必须停顿所有Java执行线程使对象引用关系不发生变化,所以枚举根节点必须停顿。另一方面,可作为GC Roots的节点主要在全局性的引用(例如常量或类静态属性)与执行上下文(例如栈帧中的本地变量表),在很多应用里,仅仅在方法区中就有几百兆,如果要逐个检查它们直接或间接引用的对象,会消耗很多时间,而消耗的时间越多,停顿的时间越长。
解决这些不足的方法:执行系统停顿时,不需要逐个检查,而是在类加载完成时,就把对象内什么偏移量上是什么类型的数据计算出来并用特定数据结构表示出来,在JIT编译过程中,也会在特定的位置使用特定的数据结构记录下栈和寄存器中那些位置是引用,如Hotpot使用一组称为OopMap的数据结构。这样,GC 在扫描是可以直接得知这些信息。
安全点:
如果每一条指令都生成对应的OopMap,则需要大量的额外空间,GC的空间成本会变得非常高,所以只是在“特定的位置”生成了对应的OopMap,这些位置就成为安全点(Safepoint),程序在执行到安全点才能停顿下来GC。一般指令序列复用如方法调用、循环跳转、异常跳转等情况下,才会产生安全点,因为这些情况需要长时间执行。
对应于安全点,需要考虑如何在GC发生时让所有的线程执行到最近的安全点再停顿下来,有两种方法:
(1)抢先式中断:GC发生时,先把所以线程中断,如果有线程中断的地方不在安全点,就恢复线程,让它执行到安全点上,现在几乎已经不使用这种方式。
(2)主动式中断:当GC需要中断线程时,不对线程操作,只设置一个标志,各个线程主动去轮询这个标志,如果这个中断标志为真就自己中断挂起,一般轮询标志的地方与安全点重合。
安全区域:
线程处于Sleep状态或者Blocked状态等“不执行”的状态时,无法响应JVM的中断请求,执行到安全点然后中断挂起,这时候就需要安全区域(Safe Region)来解决。安全区域指在一段代码片段中,引用关系不会发生变化,在这个区域中能中的任意地方开始GC都是安全的。
当线程执行到Safe Region中的代码时,首先标识自己进入了安全区域,当JVM要发起GC时,就不用管标志自己为安全区状态的线程了。当线程要离开安全区域时,要检查系统是否完成了根节点枚举或者整个GC过程,如果完成了,就可以离开安全区域,否则就要等到收到可以离开Safe Region的信号为止。