本文基于周志明的《深入理解java虚拟机 JVM高级特性与最佳实践》所写。特此推荐。
列举了这3类编译过程中一些比较有代表性的编译器
- 前端编译器:Sun的Javac、 Eclipse JDT中的增量式编译器( ECJ ) 。
- JIT编译器:HotSpotVM的C1、C2编译器。
- AOT编译器: GNU Compiler for the Java ( GCJ ) 、 Excelsior JET。
相当多新生的Java语法特性,都是靠编译器的“语法糖”来实现,而不是依赖虚拟机的底层改进来支持,前端编译器在编译期的优化过程对于程序编码来说关系更加密切。
Javac编译器
Javac的源码存放在JDK_SRC_HOME/langtools/src/share/classes/com/sun/tools/javac中, 除了JDK自身的API外 ,就只引用了JDK_SRC_HOME/langtools/src/share/classes/com/sun/*里面的代码 ,调试环境建立起来简单方便,因为基本上不需要处理依赖关系。
从Sun Javac的代码来看,编译过程大致可以分为3个过程,分别是:
- 解析与填充符号表的过程。
- 插入式注解处理器的注解处理过程。
- 分析与字节码生成过程。
这3个步骤之间的关系与交互顺序如下图
Javac编译动作的入口是com.sun.tools.javac.main.JavaCompiler类 ,上述3个过程的代码逻辑集中在这个类的compile() 和compile2() 方法中,其中主体代码如下图所示,整个编译最关键的处理就由图中标注的8个方法来完成,下面我们具体看一下这8个方法实现了什么功能。
解析与填充符号表
解析步骤由图10-5中的parseFiles()方法(图10-5中的过程1.1 ) 完成,解析步骤包括了经典程序编译原理中的词法分析和语法分析两个过程。
词法、语法分析
词法分析是将源代码的字符流转变为标记(Token)集合,单个字符是程序编写过程的最小元素,而标记则是编译过程的最小元素,关键字、变量名、字面量、运算符都可以成为标记,如“int a=b+2”这句代码包含了6个标记,分别是int、a、=、b、+、2 ,虽然关键字int由 3个字符构成,但是它只是一个Token,不可再拆分。在Javac的源码中,词法分析过程由com.sun.tools.javac.parser.Scanner类来实现。
语法分析是根据Token序列构造抽象语法树的过程,抽象语法树( Abstract Syntax Tree,AST ) 是一种用来描述程序代码语法结构的树形表示方式,语法树的每一个节点都代表着程序代码中的一个语法结构( Construct ) ,例如包、类型、修饰符、运算符、接口、返回值甚至代码注释等都可以是一个语法结构。
在Javac的源码中,语法分析过程由 com.sun.tools.javac.parser.Parser类实现,这个阶段产出的抽象语法树由com.sun.tools.javac.tree.JCTree类表示,经过这个步骤之后,编译器就基本不会再对源码文件进行操作了,后续的操作都建立在抽象语法树之上。
填充符号表
完成了语法分析和此法分析后,下一步就是填充符号表的过程,也就是图10-5中enterTrees()方法(图10-5中的过程1.2)所做的事情。符号表(Symbol Table)是由一组符号地址和符号信息构成的表格,读者可以把它想象成哈希表中K-V值对的形式(实际上符号表不一定是哈希表实现,可以是有序符号表、树状符号表、栈结构符号表等)。符号表中所登记的信息在编译的不同阶段都要用到。在语义分析中,符号表所登记的内容将用于语义检查(如检查一个名字的使用和原先的说明是否一致)和产生中间代码。在目标生成阶段,当对符号名进行地址分配时,符号表是地址分配的依据。
在Javac源代码中,填充符号表的过程由com.sun.tools.javac.comp.Enter类实现,此过程的出口是一个待处理列表( To Do List ) ,包含了每一个编译单元的抽象语法树的顶级节点, 以及package-info.java ( 如果存在的话)的顶级节点。
注解处理器
在JDK 1.5之后,Java语言提供了对注解(Annotation ) 的支持,这些注解与普通的Java代码一样,是在运行期间发挥作用的。在JDK 1.6中实现了JSR-269规范 ,提供了一组插入式注解处理器的标准API在编译期间对注解进行处理,我们可以把它看做是一组编译器的插件 ,在这些插件里面,可以读取、修改、添加抽象语法树中的任意元素。如果这些插件在处理注解期间对语法树进行了修改,编译器将回到解析及填充符号表的过程重新处理,直到所有插入式注解处理器都没有再对语法树进行修改为止,每一次循环称为一个Round,也就是图10-4中的回环过程。
有了编译器注解处理的标准API后 ,我们的代码才有可能干涉编译器的行为,由于语法树中的任意元素,甚至包括代码注释都可以在插件之中访问到,所以通过插入式注解处理器实现的插件在功能上有很大的发挥空间。只要有足够的创意,程序员可以使用插入式注解处理器来实现许多原本只能在编码中完成的事情。
在Javac源码中,插入式注解处理器的初始化过程是在initPorcessAnnotations() 方法中完成的,而它的执行过程则是在processAnnotations() 方法中完成的,这个方法判断是否还有新的注解处理器需要执行,如果有的话,通过com.sun.tools.javac.processing.JavacProcessingEnvironment类的doProcessing() 方法生成一个新的JavaCompiler对象对编译的后续步骤进行处理。
语义分析与字节码生成
语义分析的主要任务是对结构上正确的源程序(抽象语法树)进行上下文有关性质的审查,如进行类型审查。
标注检查
Javac的编译过程中,语义分析过程分为标注检查以及数据及控制流分析两个步骤。分别由图10-5中所示的attribute() 和flow() 方法(分别对应图10-5中的过程3.1和过程3.2) 完成。
标注检查步骤检查的内容包括诸如变量使用前是否已被声明、变量与賦值之间的数据类型是否能够匹配等。在标注检查步骤中,还有一个重要的动作称为常量折叠,如果我们在代码中写了如下定义:
int a=1+2;
那么在语法树上仍然能看到字面量“ 1”、“2”以及操作符“+”,但是在经过常量折叠之后 ,它们将会被折叠为字面量“3” ,这个插入式表达式( Mix Expression )的值已经在语法树上标注出来了(ConstantExpressionValue : 3 ) 。 由于编译期间进行了常量折叠 ,所以在代码里面定义“a=1+2”比起直接定义“a=3” , 并不会增加程序运行期哪怕仅仅一个 CPU指令的运算量。
标注检查步骤在Javac源码中的实现类是com.sun.tools.javac.comp.Attr类和
com.sun.tools.javac.comp.Check类。
数据及控制流分析
数据及控制流分析是对程序上下文逻辑更进一步的验证,它可以检查出诸如程序局部变量在使用前是否有赋值、方法的每条路径是否都有返回值、是否所有的受查异常都被正确处理了等问题。
在Javac的源码中,数据及控制流分析的入口是图 10-5中的flow() 方法(对应图10-5中的过程3.2) ,具体操作由com.sun.tools.javac.comp.Flow类来完成。
解语法糖
语法糖( Syntactic Sugar ) ,指在计算机语言中添加的某种语法,这种语法对语言的功能并没有影响,但是更方便程序员使用。
Java中最常用的语法糖主要是前面提到过的泛型(泛型并不一定都是语法糖实现,如C#的泛型就是直接由CLR支持的 )、变长参数、自动装箱/拆箱等,虚拟机运行时不支持这些语法 ,它们在编译阶段还原回简单的基础语法结构,这个过程称为解语法糖。
在Javac的源码中,解语法糖的过程由desugar() 方法触发,在 com.sun.tools.javac.comp.TransTypes类和com.sun.tools.javac.comp.Lower类中完成。
字节码生成
字节码生成是Javac编译过程的最后一个阶段,在Javac源码里面由com.sun.tools.javac.jvm.Gen类来完成。字节码生成阶段不仅仅是把前面各个步骤所生成的信息 (语法树、符号表)转化成字节码写到磁盘中,编译器还进行了少量的代码添加和转换工作。
完成了对语法树的遍历和调整之后,就会把填充了所有所需信息的符号表交给 com.sun.tools.javac.jvm.ClassWriter类 ,由这个类的writeClass()方法输出字节码,生成最终的Class文件 ,到此为止整个编译过程宣告结束。
Java语法糖的味道
泛型与类型擦除
泛型是JDK 1.5的一项新增特性,它的本质是参数化类型( Parametersized Type )的应用 ,也就是说所操作的数据类型被指定为一个参数。这种参数类型可以用在类、接口和方法的创建中,分别称为泛型类、泛型接口和泛型方法。
java语言中的泛型只在程序源码中存在,在编译后的字节码文件中,就已经替换为原来的原生类型( Raw Type,也称为裸类型 )了,并且在相应的地方插入了强制转型代码,因此,对于运行期的Java语言来说,ArrayList<int>与ArrayList<String>就是同一个类,所以泛型技术实际上是Java语言的一颗语法糖,Java语言中的泛型实现方法称为类型擦除 ,基于这种方法实现的泛型称为伪泛型。
由于Java泛型的引入,各种场景(虚拟机解析、反射等)下的方法调用都可能对原有的基础产生影响和新的需求,如在泛型类中如何获取传入的参数化类型等。因此 ,JCP组织对虚拟机规范做出了相应的修改,引入了诸如Signature、LocalVariableTypeTable等新的属性用于解决伴随泛型而来的参数类型的识别问题,Signature是其中最重要的一项属性,它的作用就是存储一个方法在字节码层面的特征签名,这个属性中保存的参数类型并不是原生类型 ,而是包括了参数化类型的信息。修改后的虚拟机规范要求所有能识别49.0以上版本的 Class文件的虚拟机都要能正确地识别Signature参数。
另外 ,从Signature属性的出现我们还可以得出结论,擦除法所谓的擦除,仅仅是对方法的Code属性中的字节码进行擦除,实际上元数据中还是保留了泛型信息,这也是我们能通过反射手段取得参数化类型的根本依据。
自动装箱、拆箱与遍历循环
泛型就不必说了,自动装箱、拆箱在编译之后被转化成了对应的包装和还原方法,如本例中的Integer.valueOf() 与Integer.intValue() 方法,而遍历循环则把代码还原成了迭代器的实现,这也是为何遍历循环需要被遍历的类实现Iterable接口的原因。最后再看看变长参数,它在调用的时候变成了一个数组类型的参数,在变长参数出现之前,程序员就是使用数组来完成类似功能的。
条件编译
Java语言当然也可以进行条件编译,方法就是使用条件为常量的if语句。只能使用条件为常量的if语句才能达到效果,如果使用常量与其他带有条件判断能力的语句搭配,则可能在控制流分析中提示错误,被拒绝编译。
Java语言中条件编译的实现,也是Java语言的一颗语法糖,根据布尔常量值的真假,编译器将会把分支中不成立的代码消除掉 ,这一工作将在编译器解除语法糖阶段
( com.sun.tools.javac.comp.Lower类中)完成。由于这种条件编译的实现方式使用了if语句,所以它必须遵循最基本的Java语法 ,只能写在方法体内部,因此它只能实现语句基本块 ( Block)级别的条件编译,而没有办法实现根据条件调整整个Java类的结构。
除了介绍的泛型、自动装箱、自动拆箱、遍历循环、变长参数和条件编译之外 ,Java语言还有不少其他的语法糖,如内部类、枚举类、断言语句、对枚举和字符串(在 JDK 1.7中支持)的switch支持、try语句中定义和关闭资源(在JDK 1.7中支持)等 。