前言
如果要了解 JVM 的垃圾收集器的话,那么它三个核心问题是必须要搞清楚的,如下:
- 哪些内存需要回收
- 什么时候回收
- 如何回收
这里将着重说明哪些内存需要回收。
1 JVM 运行时数据区域哪些需要回收
闲聊JVM内存结构划分 介绍了 JVM 管理的运行时数据区域的各个部分,其中程序计数器、虚拟机栈、本地方法栈 3 个区域随线程而生,也随线程而亡,栈中的栈帧随着方法入栈、出栈。即程序计数器、虚拟机栈、本地方法栈的生命周期是跟随线程的;而栈帧会因为方法结束而称为可回收的垃圾对象,待垃圾收集器回收。这 3 个区域的内存分配与回收是具有确定性的,回收也简单——当方法结束或者线程结束时,跟着回收内存即可。
但是 Java 堆 和方法区的情况就复杂很多了:一个接口的多个实现类需要的内存可能会不一样,一个方法所执行的不同条件分支所需的内存也可能不一样。只有处于运行期间,才能找到程序会创建哪些对象,多少个对象,这部分内存的分配和回收是动态的。垃圾收集器关注的正是这部分内存该如何管理。
2 如何确定垃圾对象
什么是垃圾对象?就是程序中已经确定不会再使用的对象。那么我们该如何确定一个对象是不是垃圾对象呢?
目前有两种算法可以判断:
- 引用计数算法
- 可达性分析算法
2.1 引用计数算法
这个算法的思路很简单:一个对象如果没有被任何其他对象引用,那么就是个垃圾对象。因此,只要被其他对象引用,那么它本身的引用计数器就加一,当有一个对象释放了对它的引用,那么它的引用计数器就要减一。当引用计数器是零时,那一刻它就是垃圾对象。
但是!这里有一个很重要的问题——循环引用。循环引用会导致一部分垃圾对象无法被垃圾收集器识别,从而导致内存泄漏。因此,要解决这个问题才能使用引用计数算法。这里提供一些思路:可以采取弱引用或者软引用来规避这个问题,如果没有强引用的话,垃圾收集器是可以回收它们的。
2.2 可达性分析算法
这个算法的基本思路是通过一些可被称为“GC Roots”的根对象作为起始节点集,从这些节点开始,根据引用关系向下搜索,搜索过程所走过的路径称为“引用链”,如果某个对象到 GC Roots 间没有任何引用链相连,或者用图论的话来说就是从 GC Roots 到这个对象不可达时,则证明此对象是不可能再被使用的。
用可达性分析算法来判断,下图(图来自《深入理解Java虚拟机》)的 object5、object6、object7 就是垃圾对象
在 Java 技术体系里面,固定可作为 GC Roots 的对象包括以下几种:
- 在虚拟机栈(栈帧中的本地变量表)中引用的对象,譬如当前正在运行的方法所使用到的参数、局部变量、临时变量等。
- 在方法区中类静态属性引用的对象
- 在方法区中常量引用的对象
- 在本地方法栈中 JNI 引用的对象
- Java 虚拟机内部的引用,如基本数据类型对应的 Class 对象,一些常驻的异常对象(比如 NullPointException、OutOfMemoryError)等,还有系统类加载器
- 所有被同步锁(synchronized 关键字)持有的对象
- 反映 Java 虚拟机内部情况的 JMXBean、JVMTI 中注册的回调、本地代码缓存等
除了这些固定的 GC Roots 以外,根据我们选择的垃圾收集器以及当前回收的内存区域不同,还可以有其他对象“临时性”地加入,共同构成完整的 GC Roots 集合。
3 方法区的回收
在《Java 虚拟机规范》中提到过“可以不在方法区中实现垃圾收集”。事实上还真有未实现方法区类型卸载的垃圾收集器存在,如 JDK11 的 ZGC 就不支持类卸载。
方法区的垃圾收集主要回收两种类型的数据:废弃的常量和不再使用的类。
3.1 废弃的常量
回收废弃的常量与回收 Java 堆中的对象十分相似。假如一个字符串“Java” 曾经进入常量池,但是当前系统已经没有任何一个字符串对象的值是“Java”了,即没有任何引用了。如果这时发生垃圾回收,而且垃圾收集器判断有必要回收“Java”这个常量的话,那么这个常量就会被回收。常量池中的接口、方法、字段的符号引用也与此类似。
3.2 不再使用的类
要被判断为“不再使用的类”需要同时满足三个条件:
1. 该类所有实例均被回收(派生子类的实例也不能有)
2. 加载该类的类加载器已经被回收
3. 该类对应的 java.lang.Class 对象没有在任何地方被引用,无法在任何地方通过反射访问该类的方法。
Java 虚拟机被允许对同时满足上面三个条件的类进行回收,不过这里需要强调的是:这仅仅是允许,而不是一定回收。
会出现类卸载的场景一般是:大量使用反射、动态代理、CGLib 等字节码框架,动态生成 JSP 以及 OSGi 这类频繁自定义类加载器的框架技术。这些场景就需要 Java 虚拟机具备类型卸载的能力,以保证不会对方法区造成过大的内存压力。