GC在个人写代码小打小闹的时候多数情况下并不会对你造成困扰,因为Java自动GC已经帮你解决了后顾之忧。我第一次接触到GC还是在实习的时候,在复杂的系统中,高并发量情况下GC往往会成为性能的瓶颈,当时自己偷懒准备申请,接的ticket都是做业务的,对这方面研究不深,实在遗憾。
如何判断一个对象应该被垃圾回收
引用计数算法
这种算法算是广为流传了,其基本思想为:
给一个对象中添加一个计数器,每当一个一个地方引用它时计数器+1,否则-1.任何计数器为0的对象就不可能再被引用了。
在大部分情况下,这种算法都是一种实现简单、判定效率高的算法,Python的GC似乎就是用的这种算法。 然而Java并没有选择这种算法来管理内存,其中最主要的原因为:这种算法很难解决对象之间相互引用的问题。
一个典型的场景,A,B两个对象分别只引用对方,并且没有其他对象引用AB。那么这两个对象其实并没有任何意义,但是却因为相互引用而一直无法释放。
根搜索算法
Java和C#都是使用的这种算法来判定对象是否存活。其基本思想为:
通过一系列"GC Roots"对象作为起始点,从节点向下搜索,搜索经过的路径为(Reference Chain),当一个对象到GC Roots没有任何引用链相连时,则证明这个对象是不可用的。
这有点类似于图论中的概念,只要从GC Roots无法到达,就判断这个对象不可用了。
问题来了,我们怎么确定这些GC Roots呢?这里我也不甚了解,只好照本宣科的抄一下书:
- 虚拟机栈(栈帧中的本地变量表)中的引用对象
- 方法区中的类静态属性引用的对象
- 方法区中的常量引用对象
- 本地方法栈中JNI的引用的对象
至于为啥是这些对象可以被当做GC,还有待于进一步的研究。
如何定义引用
可以看到判断一个对象是否被其他对象引用是判断这个对象是否需要被回收的重要标志,我们自然而然会思考,在Java中引用的概念又是如何定义的呢?
在Java 1.2之后定义了4种引用类型,如下:
- 强引用,类似"Object obj = new Object()"这类的引用,只要强引用还存在,垃圾收集器永远不会回收掉该对象。
- 软引用,在系统将要发生内存溢出异常之前,将会把软引用对象列进回收范围内并进行二次回收,如果这次回收还是没有足够的内存,再抛出内存溢出的异常。算不算是“垂死挣扎型引用”?
- 弱引用,被弱引用关联的对象只能生存到下一次垃圾收集发生之前。
- 虚引用,这种引用没什么存在感,一个对象是否有虚引用,完全不会对其生存时间构成影响,poor boy~
生存还是死亡?
在上文根搜索算法中,当一个对象是不可达状态时,其实并不一定会被释放。要真正宣告一个对象死亡,要经过两次标记过程:
- 如果对象在跟搜索算法中发现不可达,那么它将被第一次标记,同时进行一次筛选
- 筛选的条件是这个对象是否有必要执行finalize()方法,当对象没有覆盖finalize()方法,或者虚拟机已经调用过该方法,就没用必要释放。
如果这个对象被判定为有必要执行finalize()方法,那么这些对象被放入一个F-Queue队列中,由一个由虚拟机建立的、低优先级的Finalizer线程去“执行”。(传说中的排队被砍头?)
这里的执行之所以被打引号,是因为这个线程只保证每个finalize()方法被触发,而不必等待方法结束,这是为了防止某些finalize()方法执行太慢阻塞了其他方法。
finalized()是对象自救的最后一次机会了,如果在轮到自己被砍头的时候finalize()方法重新与其他对象建立引用关系,就不用被释放,否则的话就真的要被虚拟机咔嚓了~
另外一点需要注意的是:
任何一个对象的finalize()方法只会被系统自动调用一次,如果对象面临下一次回收,它的finalize()方法不会被再次执行。
也就是说这个免死金牌只能用一次,躲得过初一躲不过十五呀。
回收方法区
很多人认为方法区(或者HotSpot虚拟机中的永久代)是没有垃圾回收的,因为在这里进行垃圾回收的效率很低,毕竟被放入永久代的方法基本上都会被频繁用到,但我们仍然需要在方法区进行垃圾回收。
永久带的垃圾回收主要回收两部分内容:废弃常量和无用的类。
对于废弃常量的回收其实与对象的回收类似,即一个常量,如String "abc"没有被其他对象引用的话,就对该常量进行垃圾回收。
然而对于无用的类的回收就要复杂很多,因为判断“无用的类”的条件相对苛刻,必须满足以下三点:
- 该类的所有实例都已经被回收
- 加载该类的ClassLoader已经被回收
- 该类对应的java.lang.Class对象没有被引用,即通过反射无法访问此类的方法
这些用我自己的理解来说就是“了无牵挂”,把有关系的事情通通了结之后,我们才可以对这个类进行回收。另一种更加形象的比喻就是链表,如果在其他元素还存在的前提下删除头结点,其他的元素将永远无法被访问到,也就变成了内存碎片。
垃圾收集算法
前面的部分主要介绍了如何判断一个对象是否需要被进行垃圾收集工作,在这一部分我们主要来看一下当进行垃圾收集时,又有哪些算法和机制。
标记-清除算法(Mark-Sweep)
标记-清除算法是最基础的垃圾收集算法,主要分为两个阶段:标记阶段与清除阶段。虚拟机首先标记出所有需要回收的对象,在标记完成之后统一回收掉被标记的对象。
之所以称其为最基本的垃圾收集算法,是因为大部分垃圾收集算法都是基于此算法进行了改进。标记-清除算法主要有以下两个缺点:
- 效率问题: 标记阶段与清除阶段的效率都不高
- 空间问题: 标记清楚后会产生大量的不连续的空间碎片,