垃圾收集基础概念

一、概述

1.为什么要了解GC

当需要排查各种内存溢出、内存泄漏问题时，当GC成为系统达到高并发量的瓶颈时，就需要对这些成熟的技术实施必要的监控和调节。

2. GC了解对象

主要研究：Java堆、方法区
程序处于运行期间才知道会创建哪些对象，这部分的内存分配和回收都是动态的。
不需要过多考虑：程序计数器、虚拟机栈、本地方法栈
这些区域的内存分配和回收都具备确定性，方法结束或线程结束时内存自然就回收了。

二、回收对象确定算法

1. 引用

JDK1.2前

引用：如果reference类型的数据中存储的数值代表的是另外一块内存的起始地址。

缺陷：对象只存在被引用、没有被引用两种状态。

JDK1.2后

对引用的概念进行扩充，分为了四种引用，强调依次减弱。

强引用：只要存在，垃圾收集器就不会回收掉被引用的对象。
软引用（SoftReference）：在内存溢出之前，将这些对象列入回收范围之中，进行第二次回收，回收后还没有足够内存，才会抛出内存溢出异常。
弱引用（WeakReference）：垃圾收集器工作时，无论内存是否足够，都会回收只被弱引用关联的对象。
虚引用（PhantomReference）：完全不会对其对象的生存时间构成影响，也无法通过虚引用取得一个对象的实例。唯一目的是在这个对象被回收时收到一个系统通知。

2. 引用计数算法

给对象添加一个引用计数器，有一个引用它就加一，当计数器为0时就是不可能再被使用。

优点

实现简单
判定效率高

缺点

很难解决对象间相互循环引用的问题。

因为这一点，主流Java虚拟机没有选用引用计数算法来管理内存的。

3. 可达性分析算法

通过一系列GC Roots的对象作为起始点，从这些节点向下搜索，搜索走过的路径称为引用链，当一个对象到GC Roots没有任何引用链相连时（GC Roots到这个对象不可达），则此对象是不可用的。

如图object5和6，虽然6是有引用指向其的，但是因为对GC Roots不可达，所以此对象不可用。

GC Roots对象

虚拟机栈中引用的对象。
方法区中类静态属性引用的对象。
方法区中常量引用的对象。
本地方法栈中JNI引用的对象。

4. 两次标记过程

宣告一个对象需要回收之前，至少经历两次标记过程。

可达性分析后发现没有与GC Roots相连时，第一次被标记。
筛选有必要执行finalize()的对象。
有必要执行的对象放入F-Queue，有虚拟机自动建立、优先级低的线程执行它。

虽然会执行它，但并不一定会等待它运行结束。防止死循环导致F-Queue队列处于等待，导致内存回收系统崩溃。

看finalize()执行情况
- 如果在执行finalize()中重新引用到引用链上，在第二次标记时会移出回收集合。
- 如果没有连接上，就会被真正回收。

一个对象的finalize()方法只会被调用一次，所以一次逃脱回收后，在下一次回收时将不再会执行finalize()。

5. 方法区的回收

方法区的回收性价比会比Java堆低很多。

主要回收目标

废弃常量
无用的类

常量的回收条件

字符串为例，如果没有String对象引用常量池的某个常量，也没有其他地方应用这个常量时，就会将此常量清理出常量池。

常量池中其他类（接口）、方法、字段的符号引用也类似。

类的回收条件

该类的所有实例都被回收了。
加载该类的ClassLoader被回收了。
该类对应的Class对象没有被引用，无法通过反射访问到该类。

是否对类进行回收还需要看参数，HotSpot提供了-Xnoclassgc参数控制。

在大量的使用反射、动态代理、CGLib等字节码框架、动态生成JSP、OSGi这类频繁定义ClassLoader的场景都需要虚拟机具备类卸载的功能，以防止方法区溢出。

三、垃圾收集算法

1. 标记-清除算法

步骤

标记：标记出需要回收的对象。
清除：统一回收所有被标记的对象。

问题

效率问题：标记和清除的效率都不高。
空间碎片：标记清除后会产生大量的空间碎片，可能导致之后无法分配连续的大空间而提前出发另一次垃圾收集动作。

2. 复制算法

步骤

将可用内存划分为大小相等的两块A、B，每次只使用其中一块，假设使用A。
当A内存用完了，就将A中存活的对象复制到B块内存上。
将A块内存一次性全部清理。
再次分配时直接在B块上偏移指针即可。

虽然解决了空间碎片的问题，但是这种算法会使可用空间大大减小，每次只可用原空间的50%。

分块的优化

研究新生代中98%的对象都会被回收，所以并不需要1:1分块。可将内存分为一块较大的Eden，和两块较小的Survivor。

每次使用Eden和一块Survivor。
回收使将其中存活对象复制到另一块Survivor中。
最后清理掉Eden和之前的那块Survivor内存。

优点：HotSpot默认Eden和Survivor比例8:1，可分配区域为原大小的90%，所以每次分配时也就只有10%的空间浪费。
缺点：没有办法保证每次只有不多于10%大小的对象存活。当存活对象10%时，就会导致Survivor空间不足，需要依赖其他内存进行分配担保。

当另一个Survivor没有足够空间存放上次回收的存活对象时，这些对象就会直接通过分配担保机制进入老年代。

复制操作在存活率较高的情况下的效率很低，并且需要进行分配担保。所以老年代一般不会使用复制算法。

3. 标记-整理算法

与标记清除算法的前面部分一样，但是标记整理算法不是在标记后直接回收，而是让所有存活对象向一端移动，然后清理掉端边界以外的内容。

4. 分代收集思想

根据对象存活周期的不同，将内存划分几块。一般分为新生代和老生代，根据不同的特点采用合适的算法。

新生代：复制算法。
老生代：标记-清理或标记-整理算法。