Class文件中存储着Java虚拟机指令集和符号表以及若干辅助信息。它使用的是一种平台无关的字节码储存格式,不同的虚拟机实现都可以载入执行这种平台无关的字节码。Java虚拟机不与任何语言绑定,只与Class文件这种特定二进制文件格式关联,原则上任何语言都可以编译成Class文件在Java虚拟机上运行。
一、 Class类文件结构
Class文件格式采用一种类似C语言结构体的伪结构来存储数据,这种伪结构中只有两种数据类型:无符号数和表。
1.1 无符号数
无符号数属于基本数据类型,以u1,u2,u4,u8来分别代表1个字节、2个字节、4个字节和8个字节的无符号数,无符号数可以用来描述数字、索引引用、数量值或者按照UTF-8编码构成字符串值。
1.2 表
表是由多个无符号数或者其他表作为数据项构成的复合数据类型。表用于描述有层次关系的复合结构的数据,整个Class文件本质上就是一张表。Class中以_info结尾代表一张表。
二、Class字节码解析
Class文件是一组以8位字节为基础单位的二进制流,各个数据项目严格的按照顺序紧凑的排列在Class文件中。当遇到占用8字节以上空间的数据项时,则会按照高位在前的方式分割成若干个8位字节进行存储。Class内部不包含任何分隔符,数据存储顺序数量都被严格限定,不允许任何改动。下面看看具体数据项的含义:
2.1 魔数(Magic Number)
每个Class文件的头4个字节称为魔数(Magic Number),它唯一作用就是用来确定文件是否能被虚拟机接受。
很多文件存储标准中都用魔数进行身份标识,如图片gif,jpeg都在文件头部中存储着魔数。使用魔数而不是用扩展名来进行识别主要是基于安全考虑,因为扩展名可以被随意改动。
2.2 版本号
接下来的4个字节存储着Class文件的版本号,第五第六个字节为次版本号(Minor Version),第七第八为主版本号(Major Version)。版本号主要用于版本控制,高版本的JDK能向下兼容以前版本的Class文件,但不能运行以后版本的Class文件。
2.3 常量池入口
紧接着版本号之后的就是常量池入口,常量池入口后面还必须有一个u2数据项作为常量池容量计数器(因为常量池数量不固定)。
常量池是一个表类型的数据项,相当于Class文件的资源仓库,与Class文件其他项目关联最多,占用Class空间最大的数据项之一,且是第一个出现的表类型数据项目。
常量池主要存储两大类常量:字面量(Literal)和符号引用(Symbolic References)
字面量相当于Java语言中的常量概念,比如字符串,声明为final的常量值。
符号引用则属于编译原理方面的概念包括三类常量:
- 类和接口的全限定名(Fully Qualified Name)
- 字段的名称和描述符(Descriptor)
- 方法的名称和描述符
Class文件不会保存各个方法字段的最终内存布局信息,因为这些字段、方法和符号引用不经过运行期转换(动态连接)的话无法得到真正内存入口地址,也就无法被虚拟机使用。当虚拟机运行时,需要从常量池获得对应的符号引用,再在类创建或运行时解析翻译到具体的内存地址之中。
常量池中的每一项常量都是一个表(JDK1.7中有14种)。包括UTF-8编码的字符串表,整型字面量表,浮点型字面量表,长整型字面常量表,类和接口的符号引用表,字段符号引用表,类中的方法符号引用表,接口中方法符号引用表等等。这些表都会有各自不同的结构。
2.4 访问标志
常量池之后就是由两个字节代表的访问标识(access flags)这些标识用于识别一些类或者接口层次的访问信息,包括这个Class是类还是接口;是否定义为public;是否定义为abstract类型;是否被final修饰。
2.5 类索引、父类索引、接口索引
访问标志位之后就是u2类型的类索引,父类索引和接口索引集合。Class文件由这三项数据确定这个类的继承关系。这三项数据(u2类型的索引值)各指向类型为CONSTANT_Class_info的类描述符常量。
2.6 字段表集合
字段表用于描述接口或者类中声明的变量。字段(field)包括类级变量以及实例级变量,但不包括在方法内部声明的局部变量。字段表中字段的各种描述信息(作用域比如public,private,是否被final,static修饰,是否可序列化等)均使用标志位表示,名称则引用常量池中的常量来描述。
2.7 方法表集合
在方法表中,方法的描述和字段的描述基本一致,依次包括访问标志(access_flags)、名称索引(name_index)、描述符索引(descriptor_index)、属性表集合(attributes)几项。
方法中的代码经过编译器编译成字节码指令后存放在方法属性表集合中一个名为“Code”的属性里面。
如果父类方法在子类中没有被重写,方法表集合中就不会出现来自父类的方法信息。
2.8 属性表集合
Class文件、字段表、方法表都可以携带自己的属性表集合,以用于描述某些场景专有的信息。
为了能正确解析Class文件,在Java SE 7中预定义了21项属性,虚拟机在运行时会忽略他不认识的属性。
三、字节码指令
Java虚拟机的指令是由一个字节长度的、代表着某种特定操作含义的数字(操作码,Opcode)以及跟随其后的零个至多个代表此操作所需要的参数(操作数,Operands)构成。
常用指令:
- 加载存储指令,将数据在栈帧中的局部变量表和操作数栈之间来回传输
- 运算指令,对两个操作数栈上的值进行某种特定运算,并把结果重新写入操作栈,包括加减乘除逻辑与或非
- 类型转换指令,将两种不同的数值类型进行相互转换,这些转换一般用于实现用户代码中的显式类型转换操作,或者用来处理字节码指令集中数据类型相关指令代码无法与数据类型一一对应的问题。另,类型转换指令永远不可能导致虚拟机运行异常。
- 对象创建与访问指令,创建对象数组访问对象等
- 操作数栈管理指令,Java虚拟机提供了一些用于直接操作操作数栈的指令,包括入栈,出栈,栈顶端两个数据交换
- 控制转移指令,可以让Java虚拟机有条件或无条件地从指定的位置指令而不是控制转移指令的下一条指令继续执行程序,包括条件分支ifxxx,复合条件分支,无条件分支goto等。
- 方法调用和返回指令,调用对象实例方法,调用接口方法,调用类方法,运行时动态解析出调用点限定符所引用的方法,返回指令根据返回值类型区分
- 异常处理指令,Java程序中显式抛出异常的操作(throw)都是由athrow指令实现,异常处理不是字节码指令实现,而是采用异常表实现
- 同步指令,方法级同步和方法内部一段指令序列的同步(通过管程Monitor支持),执行线程要求先持有管程,然后才能执行方法,当方法执行完成后释放管程;方法执行期间,执行线程持有管程,任何一个线程都无法再获取同一个管程