深入理解JVM第六章笔记
无关性
字节码,各种不同的平台的虚拟机与所有平台都统一使用的程序存储格式,它也是构成Java语言平台无关性的基石。
Java虚拟机不和包括Java在内的任何语言绑定,它只与“Class文件”这种特定的二进制文件格式所关联。Class文件包含了Java虚拟机指令集和符号表以及若干其他辅助信息。
Class类文件的结构
class文件是一组以8位字节为基础单位的二进制流,各个数据项目严格按照顺序紧凑排在class文件,中间无分隔符,这使得class文件里几乎都是程序运行的必要数据。当遇到需占用8位以上字节的数据时,则会按高位在前的方式分割成多个8位字节存储。
Class文件格式采用一种类似C语言结构体的伪结构来存储数据,这种伪结构只有两种数据类型:
无符号数
表
无符号数属于基本的数据类型:
u1,u2,u4,u8来分别代表1个字节,2个字节,4个字节,8个字节的无符号数。
表是由多个无符号数或者其它表作为数据项构成的复合数据类型,以_info结尾
魔数与Class文件的版本
每个Class文件的头4个字节叫做魔数,它的唯一作用就是来确定这个文件是否为一个能被虚拟机接受的Class文件。
很多文件存储标准中都用魔数进行身份标识,如图片gif,jpeg都在文件头部中存储着魔数。使用魔数而不是用扩展名来进行识别主要是基于安全考虑,因为扩展名我们可以随意通过重命名等方式改动。
Class文件的魔数很有浪漫气息,为0xCAFFBABE(咖啡宝贝)
紧跟在魔数4个字节后的是版本号,这里第五个字节和第六个字节是次版本号,第七和第八字节是主版本号。
常量池
常量池跟在主次版本后,跟着是常量池入口。由于常量的数量不固定,所以先放个u2类型的数据代表常量池容量计数器。
常量池是Class文件结构中与其它项目关联最多的数据类型,也是占用Class文件空间最大的数据项目之一。
常量池主要放两大类常量:
- 字面量
- 符号引用
字面量比较接近于Java语言层面的常量概念,如文本字符串
符号引用则属于编译原理方面的东西,包括下面三类常量:
类和接口的全限定名
字段的名称和描述符
- 方法的名称和描述符
常量池中每一项常量都是一个表,jdk1.7有14种结构不同的表结构,这14个表有个共同特点,就是表开始的第一位都是一个u1类型的标志位,JVM根据这个标志位[tag]来确定某个常量池项表示什么类型的字面量,比如tag为1就是指CONSTANT_utf8_info
常量池的项目类型:
访问标志
常量池后面紧跟的是两个字节的访问标志u2。它的作用是正如其名,用于识别一些类或者接口的访问信息,比如这个Class是类还是接口【class文件也有可能代表的是接口】,是否声明为public,是否为abstract类型,如果是类是否被声明为final。
图示:
类索引、父类索引、接口索引集合
类索引和父类索引都是一个u2类型的数据,而接口索引集合是一组u2类型的数据的集合。Class文件由这三项数据来确定这个类的继承关系。
类索引确定这个类的全限定名
父类索引确定这个类的父类的全限定名
Java为单继承,所以父类索引只有一个,除了Object类,所有的Java类都有父类,除了Object类以外的Java类,父类索引接口都不为0。
接口索引集合:与其他两项不同,接口索引是集合,因为一个类可以实现多个接口,接口索引集合分两部分,入口是索引数,用一个u2类型表示索引的容量,如果类没有实现任何接口,则该计数器值为0,后面的索引表不占任何字节。如果有实现n个接口,后面就用n个索引分别描述各自的接口索引位置。
字段表集合
字段表用于描述接口或类中声明的变量。字段包括类级变量以及实例级变量,但是不包括在方法内声明的局部变量。
在java中,我们可以用public、private、protected描述字段的作用域,可以用static描述是不是类变量,final描述其可变性,volatile描述可见性,是否强制从主存读写,transient是否可以被序列化,这些都可以用是否来描述,jvm用访问标识的方式来确认这些信息。
方法表集合
类似字段表集合,方法表集合是由若干个方法表(method_info)组成的集合,然后有2个字节的方法计数器,后面依次是每个method_info的信息。
方法表集合是由访问标志(access_flags)、名称索引(name_index)、描述索引(descriptor_index)、属性表集合(attribute_info)组成
类似类、字段的访问标志,方法表集合也有访问标志,不过不同的是volatile、transient不能修饰方法所以没有这两项,与之相对的是多了synchronized、native、stricfp可以修饰方法的关键字。
方法的定义可以通过访问标志,名称索引,描述符索引表达清楚,但方法里面的代码经过编译器编译成字节码指令后,存放在方法属性表集合中一个叫“Code”的属性里面去了。
与字段表集合相对应的,如果父类方法在子类中没有被重写,方法表集合中就不会出现来自父类的方法信息,但同样有可能会出现由编译器自动添加的方法,最典型的就是类构造器“<clinit>”方法和实例构造器“<init>”方法
在Java中,要实现重载一个方法,除了要与原方法具有相同的简单名称之外,还必须拥有一个与原方法不同的特征签名。
特征签名:一个方法中各个参数在常量池中的字段符号引用的集合,也就是因为返回值不会包含在特征签名中,因此Java里面无法仅仅依靠返回值不同来对一个已有方法进行重载。
但是在class文件格式,特征签名范围更大,只有描述符不是完全一致的两个方法也可以共存---如何两个方法有一样的名称和特征签名,但返回值不一样,那么也是可以合法共存于同一个class文件的。
属性表集合
在Class文件、字段表、方法表都可以携带自己的属性表集合,用于描述某些场景专有的信息。
属性表集合相对其他class文件,对顺序要求不再那么高。
属性表占着非常大的一部分且定义了众多属性
Code属性
Java代码中方法体里面的代码经过Javac编译之后,最终变成字节码指令存储在Code属性内,Code属性出现在方法表的属性集合之中,但并非所有的方法表都必须存在这个属性,例如接口或者抽象类中的方法就不存在Code属性
Code属性是Class文件里面最重要的一个属性,考虑把一个Java程序中的信息分为两部分:
代码(Code,方法体里面的Java代码)
元数据(Metadata,包括类,字段,方法定义以及其他信息)
整个Class文件中:
- Code属性用于描述代码,所有其他数据项目都用于描述元数据
ConstantValue属性
这个属性的作用是通知虚拟机为静态变量赋值,只要被static修饰的变量才有这个属性,有该属性的字段必须有ACC_STATIC访问标志,反过来不一定。
对于下面两个语句:
int x = 123;
static int x = 123;
虚拟机对这两种赋值方式处理有所不同:
- 非static类型变量(实例变量)
赋值是在实例构造器<init>进行的
类变量有两种方式可以选择
1 如果同时使用final以及static来修饰一个变量,并且这个变量的数据类型是基本类型或者String类型的话,就生成ConstantValue属性来进行初始化
- 2 如果这个变量没有被final修饰,或者并非基本类型及字符串的话,那么就选择在<clinit>方法中进行初始化
参考资料
<<深入理解Java虚拟机>>