深入理解JVM第十章笔记
背景
Java语言的“编译期”其实是一段“不确定”的操作过程,因为它可能是指一个前端编译器(其实叫“编译器的前端”更准确一些)把.java文件转变成.class文件的过程;也可能是指虚拟机的后端运行期编译器(JIT编译器,Just In Time Compiler)把字节码转变成机器码的过程;还可能是指使用静态提前编译器(AOT编译器,Ahead Of Time Compiler)直接把*.java文件编译成本地机器代码的过程。
下面列举了这3类编译过程中一些比较有代表性的编译器:
- 前端编译器:Sun的Javac、Eclipse JDT中的增量式编译器(ECJ)。
- JIT编译器:HotSpot VM的C1、C2编译器。
- AOT编译器:GNU Compiler for the Java(GCJ)、Excelsior JET。
Javac这类编译器对代码的运行效率几乎没有任何优化措施。虚拟机设计团队把对性能的优化集中到了后端的即时编译器中,这样可以让那些不是由Javac产生的Class文件(如JRuby、Groovy等语言的Class文件)也同样能享受到编译器优化所带来的好处。
但是Javac做了许多针对Java语言编码过程的优化措施来改善程序员的编码风格和提高编码效率。相当多新生的Java语法特性,都是靠编译器的“语法糖”来实现,而不是依赖虚拟机的底层改进来支持,可以说,Java中即时编译器在运行期的优化过程对于程序运行来说更重要,而前端编译器在编译期的优化过程对于程序编码来说关系更加密切。
从Sun Javac的代码看,编译过程大致可以分为3个过程:
- 解析与填充符号表过程
插入式注解处理器的注解处理过程
分析与字节码生成过程
图示:
解析与填充符号表
词法、语法分析
词法分析是将源代码的字符流转变为标记(Token)集合
单个字符是程序编写过程的最小元素,而标记则是编译过程的最小元素,关键字、变量名、字面量、运算符都可以成为标记,如"int a=b+2"这句代码包含了6个标记,分别是int、a、=、b、+、2,虽然关键字int由3个字符构成,但是它只是一个Token,不可再拆分。
语法分析是根据Token序列构造抽象语法树的过程
抽象语法树(Abstract Syntax Tree,AST)是一种用来描述程序代码语法结构的树形表示方式,语法树的每一个节点都代表着程序代码中的一个语法结构(Construct),例如包、类型、修饰符、运算符、接口、返回值甚至代码注释等都可以是一个语法结构。
填充符号表
完成了语法分析和词法分析之后,下一步就是填充符号表的过程。符号表(Symbol Table)是由一组符号地址和符号信息构成的表格,可以把它想象成哈希表中K-V值对的形式(实际上符号表不一定是哈希表实现,可以是有序符号表、树状符号表、栈结构符号表等)。符号表中所登记的信息在编译的不同阶段都要用到。在语义分析中,符号表所登记的内容将用于语义检查(如检查一个名字的使用和原先的说明是否一致)和产生中间代码。在目标代码生成阶段,当对符号名进行地址分配时,符号表是地址分配的依据。
注解处理器
在JDK 1.6中实现了JSR-269规范[1],提供了一组插入式注解处理器的标准API在编译期间对注解进行处理,我们可以把它看做是一组编译器的插件,在这些插件里面,可以读取、修改、添加抽象语法树中的任意元素。
有了编译器注解处理的标准API后,我们的代码才有可能干涉编译器的行为,由于语法树中的任意元素,甚至包括代码注释都可以在插件之中访问到,“所以通过插入式注解处理器实现的插件在功能上有很大的发挥空间。
语义分析与字节码生成
语法分析之后,编译器获得了程序代码的抽象语法树表示,语法树能表示一个结构正确的源程序的抽象,但无法保证源程序是符合逻辑的。而语义分析的主要任务是对结构上正确的源程序进行上下文有关性质的审查,如进行类型审查。
标注检查
Javac的编译过程中,语义分析过程分为标注检查以及数据及控制流分析两个步骤
标注检查步骤检查的内容包括诸如变量使用前是否已被声明、变量与赋值之间的数据类型是否能够匹配等。在标注检查步骤中
还有一个重要的动作称为常量折叠,如果我们在代码中写了如下定义:
int a = 1 + 2;
那么在语法树上仍然能看到字面量“1”、“2”以及操作符“+”,但是在经过常量折叠之后,它们将会被折叠为字面量“3”
数据及控制流分析
数据及控制流分析是对程序上下文逻辑更进一步的验证,它可以检查出诸如程序局部变量在使用前是否有赋值、方法的每条路径是否都有返回值、是否所有的受查异常都被正确处理了等问题。
编译时期的数据及控制流分析与类加载时的数据及控制流分析的目的基本上是一致的,但校验范围有所区别,有一些校验项只有在编译期或运行期才能进行。
例子:
public void foo(final int arg){
final int var=0;
//do something
}
public void foo(int arg){
int var=0;
//do something
}
在这两个foo()方法中,第一种方法的参数和局部变量定义使用了final修饰符,而第二种方法则没有,在代码编写时程序肯定会受到final修饰符的影响,不能再改变arg和var变量的值
但是这两段代码编译出来的Class文件是没有任何一点区别的,局部变量与字段(实例变量、类变量)是有区别的,它在常量池中没有CONSTANT_Fieldref_info的符号引用,自然就没有访问标志(Access_Flags)的信息,甚至可能连名称都不会保留下来(取决于编译时的选项),自然在Class文件中不可能知道一个局部变量是不是声明为final了。因此,将局部变量声明为final,对运行期是没有影响的,变量的不变性仅仅由编译器在编译期间保障。
解语法糖
语法糖(Syntactic Sugar),也称糖衣语法,是由英国计算机科学家彼得·约翰·兰达(Peter J.Landin)发明的一个术语,指在计算机语言中添加的某种语法,这种语法对语言的功能并没有影响,但是更方便程序员使用。通常来说,使用语法糖能够增加程序的可读性,从而减少程序代码出错的机会。
Java在现代编程语言之中属于“低糖语言”(相对于C#及许多其他JVM语言来说),尤其是JDK 1.5之前的版本,“低糖”语法也是Java语言被怀疑已经“落后”的一个表面理由。Java中最常用的语法糖主要是泛型(泛型并不一定都是语法糖实现,如C#的泛型就是直接由CLR支持的)、变长参数、自动装箱/拆箱等,虚拟机运行时不支持这些语法,它们在编译阶段还原回简单的基础语法结构,这个过程称为解语法糖。
字节码生成
字节码生成是Javac编译过程的最后一个阶段,在Javac源码里面由com.sun.tools.javac.jvm.Gen类来完成。字节码生成阶段不仅仅是把前面各个步骤所生成的信息(语法树、符号表)转化成字节码写到磁盘中,编译器还进行了少量的代码添加和转换工作。
例如,实例构造器<init>()方法和类构造器<clinit>()方法就是在这个阶段添加到语法树之中的。
Java语法糖
泛型与类型擦除
泛型是JDK 1.5的一项新增特性,它的本质是参数化类型(Parametersized Type)的应用,也就是说所操作的数据类型被指定为一个参数。这种参数类型可以用在类、接口和方法的创建中,分别称为泛型类、泛型接口和泛型方法。
泛型思想早在C++语言的模板(Template)中就开始生根发芽,在Java语言处于还没有出现泛型的版本时,只能通过Object是所有类型的父类和类型强制转换两个特点的配合来实现类型泛化。例如,在哈希表的存取中,JDK 1.5之前使用HashMap的get()方法,返回值就是一个Object对象,由于Java语言里面所有的类型都继承于java.lang.Object,所以Object转型成任何对象都是有可能的。
Java语言中的泛型则不一样,它只在程序源码中存在,在编译后的字节码文件中,就已经替换为原来的原生类型(Raw Type,也称为裸类型)了,并且在相应的地方插入了强制转型代码,因此,对于运行期的Java语言来说,ArrayList<int>与ArrayList<String>就是同一个类,所以泛型技术实际上是Java语言的一颗语法糖,Java语言中的泛型实现方法称为类型擦除,基于这种方法实现的泛型称为伪泛型。
泛型擦除前的例子:
public class Test {
public static void main(String[] args) {
Map<String,String> map = new HashMap<>();
map.put("1","1");
map.put("2","1");
map.put("3","1");
System.out.println(map.get("1"));
}
}
把这段Java代码编译成Class文件,然后再用字节码反编译工具进行反编译后,将会发现泛型都不见了,程序又变回了Java泛型出现之前的写法,泛型类型都变回了原生类型
泛型擦除后的例子:
public class Test
{
public Test()
{
}
public static void main(String args[])
{
Map map = new HashMap();
map.put("1", "1");
map.put("2", "1");
map.put("3", "1");
System.out.println((String)map.get("1"));
}
}
自动装箱、拆箱与遍历循环
从纯技术的角度来讲,自动装箱、自动拆箱与遍历循环(Foreach循环)这些语法糖,无论是实现上还是思想上都不能和上文介绍的泛型相比,两者的难度和深度都有很大差距。
自动装箱、拆箱与遍历循环:
public class T1 {
public static void main(String[] args) {
List<Integer> list= Arrays.asList(1,2,3,4);
//如果在JDK 1.7中,还有另外一颗语法糖
//能让上面这句代码进一步简写成List<Integer>list=[1,2,3,4];
int sum=0;
for(int i:list){
sum+=i;
}
System.out.println(sum);
}
}
自动装箱、拆箱与遍历循环编译之后:
public class T1
{
public T1()
{
}
public static void main(String args[])
{
List list = Arrays.asList(new Integer[] {
Integer.valueOf(1), Integer.valueOf(2), Integer.valueOf(3), Integer.valueOf(4)
});
int sum = 0;
for(Iterator iterator = list.iterator(); iterator.hasNext();)
{
int i = ((Integer)iterator.next()).intValue();
sum += i;
}
System.out.println(sum);
}
}
自动装箱、拆箱在编译之后被转化成了对应的包装和还原方法,如本例中的Integer valueOf()与Integer.intValue()方法,而遍历循环则把代码还原成了迭代器的实现,这也是为何遍历循环需要被遍历的类实现Iterable接口的原因。最后再看看变长参数,它在调用的时候变成了一个数组类型的参数,在变长参数出现之前,程序员就是使用数组来完成类似功能的。
条件编译
Java语言当然也可以进行条件编译,方法就是使用条件为常量的if语句。如下代码所示,此代码中的if语句不同于其他Java代码,它在编译阶段就会被“运行”,生成的字节码之中只包括"System.out.println("block 1");"一条语句,并不会包含if语句及另外一个分子中的"System.out.println("block 2");
Java语言的条件编译:
public class T2 {
public static void main(String[] args) {
if (true) {
System.out.println("block 1");
} else {
System.out.println("block 2");
}
}
}
上述代码编译后Class文件的反编译结果:
public class T2
{
public T2()
{
}
public static void main(String args[])
{
System.out.println("block 1");
}
}
参考资料
<<深入理解Java虚拟机>>