Java 通过引入字节码和 JVM 机制,提供了强大的跨平台能力,理解 Java 的类加载机制是深入 Java 开发的必要条件。
第一,Java 类加载的过程简介
一般来说,我们把 Java 的类加载过程分为三个主要步骤:加载,连接,初始化,具体行为在 Java 虚拟机规范里有非常详细的定义。
首先是加载过程(Loading),它是 Java 将字节码数据从不同的数据源读取到 JVM 中,并映射为 JVM 认可的数据结构(Class 对象),这里的数据源可能是各种各样的形态,比如 jar 文件,class 文件,甚至是网络数据源等;如果输入数据不是 ClassFile 的结构,则会抛出 ClassFormatError。加载阶段是用户参与的阶段,我们可以自定义类加载器,去实现自己的类加载过程。
第二阶段是连接(Linking),这是核心的步骤,简单说是把原始的类定义信息平滑地转入 JVM 运行的过程中。这里可进一步细分成三个步骤:1,验证(Verification),这是虚拟机安全的重要保障,JVM 需要核验字节信息是符合 Java 虚拟机规范的,否则就被认为是 VerifyError,这样就防止了恶意信息或者不合规信息危害 JVM 的运行,验证阶段有可能触发更多 class 的加载。2,准备(Pereparation),创建类或者接口中的静态变量,并初始化静态变量的初始值。但这里的“初始化”和下面的显示初始化阶段是有区别的,侧重点在于分配所需要的内存空间,不会去执行更进一步的 JVM 指令。3,解析(Resolution),在这一步会将常量池中的符号引用(symbolic reference)替换为直接引用。在 Java 虚拟机规范中,详细介绍了类,接口,方法和字段等各方面的解析。
最后是初始化阶段(initialization),这一步真正去执行类初始化的代码逻辑,包括静态字段赋值的动作,以及执行类定义中的静态初始化块内的逻辑,编译器在编译阶段就会把这部分逻辑整理好,父类型的初始化逻辑优先于当前类型的逻辑。再来谈谈双亲委派模型,简单说就是当加载器(Class-Loader)试图加载某个类型的时候,除非父类加载器找不到相应类型,否则尽量将这个任务代理给当前加载器的父加载器去做。使用委派模型的目的是避免重复加载 Java 类型。
第二,自定义类加载器的常见场景
实现类似进程内隔离,类加载器实际上用作不同的命名空间,以及提供类似容器,模块化的效果。例如:1,两个模块依赖于某个类库的不同版本,如果分别被不同的容器加载,就可以互不干扰。这个方面的集大成者是 Jave EE 和 OSGL,JPMS等框架。2,应用需要从不同的数据源获取类定义信息,例如网络数据源,而不是本地文件系统。3,或者是需要自己操纵字节码,动态修改生成类型。
我们可以总体上简单理解自定义类加载过程:1,通过指定名称,找到其二进制实现,这里往往就是自定义类加载器会“定制”的部分,例如,在特定数据源根据名字获取字节码,或者修改或生成字节码。2,然后,创建 Class 对象,并完成类加载过程。二进制信息到 class 对象的转换,通常就依赖 defineClass,我们无需自己实现,它是 final 方法。有了 Class 对象,后续完成加载过程就顺利成章了。
第三,如何降低类加载的开销
这么多类加载,有没有什么通用方法,不需要代码和其他工作量,就可以降低类加载的开销?这个可以有。
1,比如 AOT,相当于直接编译成机器码,降低的其实主要是解释和编译开销。但是其目前还是个实验特性,支持的平台也有限,比如,JDK 9 仅支持 Linux x64,所以局限性太大,先暂且不谈。
2,还有就是较少人知道的 AppCDS(Application Class-Data Sharing),CDS 在 Java 5 中被引进,但仅限于 Bootstrap Class-loader,在 8u40 中实现了 AppCDS,支持其他的类加载器,目前已经在 JDK 10 中开源。
简单来说,AppCDS 基本原理和工作过程是:首先,JVM 将类信息加载,解析成元数据,并根据是否需要修改,将其分类为 Read-Only 部分和 Read-Write 部分。然后,将这些元数据直接存储在文件系统中,作为所谓的 Shared Archive。第二,在应用程序启动时,指定归档文件,并开启 AppCDS。AppCDS 改善启动速度非常明显,传统的 Java EE 应用,一般可以提高 20% ~ 30%以上。与此同时,降低内存 footprint,因为同一环境的 Java 进程间可以共享部分数据结构。当然,也不是没有局限性,如果恰好大量使用了运行时动态类加载,它的帮助就有限了。
我是温驭臣,一个java的开发学习者,以上是我的简单总结,如果有缺陷,希望在评论区看到您的补充。