最近在腾讯学堂听了一下JVM入门到入魔的公开课后,总结了一下JVM修炼魔功心法,给看帖的简书友参考参考,虽然功法简单通俗,但是望大家别喷哈:
一、JVM是什么
JVM是java程序的核心和基础,是介于java编译器和oa操作平台之间的虚拟机处理器。java编译器会把java文件编译成jvm能识别的字节码文件,然后通过jvm解析和生成一条条os平台可识别的操作指令,然后发送给特定平台并运行。
二、JRE、JVM、JDK三者的关系是什么
JDK是Java程序员常用的开发包、目的就是用来编译和调试Java程序的。JRE是指Java运行环境,也就是我们的写好的程序必须在JRE才能够运行。JVM是Java虚拟机的缩写,是指负责将字节码解释成为特定的机器码进行运行,值得注意的是在运行过程中,Java源程序需要通过编译器编译为.class文件,否则JVM不认识。具体关系如下图,此图是从别人网站扣来的:
三、JVM的体系结构
1. 类装载器(ClassLoader)(用来装载.class文件)
2. 执行引擎(执行字节码,或者执行本地方法)
3. 运行时数据区(方法区、堆、java栈、PC寄存器、本地方法栈)
四、类装载器
1、类的加载:第一步根据类的权限名找到此类的二进制字节流,第二步把该字节流所代表的静态存储结构转变为方法区的运行时数据结构,第三步在java堆中生成一个java.lang.class对象,作为方法区这些数据的访问入口。
2、链接主要分为三部分:
第一部分是验证,也就是校验字节流文件包含的信息是否符合当前虚拟机的要求,并且不会危害当前虚拟机。验证阶段主要包括四个检验过程:文件格式验证、元数据验证、字节码验证和符号引用验证。
第二部分是准备,通俗点说就是给类里面的静态变量初始化一个值,例如public static int a =12;这句类里面定义初始化的类变量会在准备阶段初始化为0.
第三部分是解析,简单来说就是把虚拟机常量池中的符号引用转变为直接引用。
符号引用就是一些代表着类的方法、变量等的字面量,在反编译的机器码里可看到一些字面量,带CONSTANT_开头的字段就是一种符号变量。通俗点说就是:您是某省某城市里的帅锅或美女。
直接引用就是直接指向目标对象的指针、相对偏移量或是一个能间接定位到目标的句柄。通俗点解释就是:您是某省某城市里的叫XXX的帅锅或美女,也就是具体指向到具体对象了。
3、初始化:就是给该类进行初始化成一个实例。有四种情况会触发初始化:①直接执行new语句;②给该类的子类进行初始化;③使用反射的newInstance进行创建对象;④java程序启动时指定加载初始化的类。
4、额外科普一下类加载器有哪几种吧?
①、启动类加载器(Bootstrap ClassLoader):这个类加载器负责放在<JAVA_HOME>\lib目录中的rt.jar,或者被-Xbootclasspath参数所指定的路径中的,并且是虚拟机识别的类库。用户无法直接使用。
②、扩展类加载器(Extension ClassLoader):这个类加载器由sun.misc.Launcher$AppClassLoader实现。它负责<JAVA_HOME>\lib\ext目录中的*.jar,或者被java.ext.dirs系统变量所指定的路径中的所有类库。用户可以直接使用。
③、应用程序类加载器(Application ClassLoader):这个类由sun.misc.Launcher$AppClassLoader实现。是ClassLoader中getSystemClassLoader()方法的返回值。它负责用户路径(ClassPath)所指定的类库。用户可以直接使用。如果用户没有自己定义类加载器,默认使用这个。
④、自定义加载器(Custom ClassLoader):用户自己定义的类加载器。
类的加载时使用的是双亲委派机制,也就是类加载会先让其父类的加载器去加载,父类加载器没加载成功,它所在的类加载器才会去加载。
五、JVM的执行引擎
在执行方法时JVM提供了四种指令来执行:
(1)invokestatic:调用类的static方法
(2)invokevirtual:调用对象实例的方法
(3)invokeinterface:将属性定义为接口来进行调用
(4)invokespecial:JVM对于初始化对象(Java构造器的方法为:)以及调用对象实例中的私有方法时。
字节码可以通过以下两种方式转换成合适的语言:
(1)解释器:一条一条地读取,解释并且执行字节码指令。因为它一条一条地解释和执行指令,所以它可以很快地解释字节码,但是执行起来会比较慢。这是解释执行的语言的一个缺点。字节码这种“语言”基本来说是解释执行的。第一代JVM使用。
(2)即时(Just-In-Time)编译器:即时编译器被引入用来弥补解释器的缺点。执行引擎首先按照解释执行的方式来执行,然后在合适的时候,即时编译器把整段字节码编译成本地代码。然后,执行引擎就没有必要再去解释执行方法了,它可以直接通过本地代码去执行它。执行本地代码比一条一条进行解释执行的速度快很多。编译后的代码可以执行的很快,因为本地代码是保存在缓存里的。第二代JVM使用
目前的JVM是两种方式结合。
六、JVM运行时数据区
1、方法区
方法区有时候也叫永久区,存储的是类的信息(包括类的修饰符、类的名称、类里面定义的方法信息、字段信息),类中的静态变量,类中定义的final常量,类的field信息以及编译器编译后的代码等。通常开发者在程序中写的getName方法获取的数据就是来自于方法区的,所以方法区域是共享的,也是GC的重要区域之一。当方法区需要的内存大于其所允许的内存,会抛出OutOfMemory的错误信息。在方法区中还有一个比较重要的区域就是运行时常量区,用于存放静态编译产生的字面量和符号引用。运行时生成的常量也会存在这个常量池中,比如String的intern方法。它是每一个类或接口的常量池的运行时表示形式,在类和接口被加载到JVM后,对应的运行时常量池就被创建出来。
2、堆
Java堆是用来存储实例对象和数组(当然数组的引用是存在栈中的)。堆是被所有线程共享的,也是GC重要回收区域,因此在此上面分配内存需要加锁,这样没new一个对象都会对jvm的开销很大。Sun Hotspot JVM为了提升对象分配内存的效率,特意单独给每个新建的线程都提供一个TLAB空间,大小由JVM在运行时进行计算分配,该空间分配内存不需要加锁,因此每个线程new对象时都尽量在该空间给其分配内存。当然如果对象所需内存太大还是需要堆内存亲自分配。堆内存根据对象存活时间分为了young区和old区,又因为GC性能优化,young区根据8:1:1分为了Eden区、survivor1和survivor2区。具体原因看下一篇GC机制的魔功心法。
3、虚拟机栈
Java栈又称之为虚拟机栈,是用来执行java方法的,是线程私有的。每个线程执行一个方法都会创建一个栈帧进行压栈,每个栈帧包括了局部变量表、操作数栈、动态链接、返回地址信息以及附加信息,当方法执行完毕,栈帧就会被出栈。
①、局部变量表:存的都是一些基本数据类型的数据,如int,float,double,boolean,short,long,char,byte等,还有一些方法中声明的非静态变量或形参,对象的引用地址等。
②、操作数栈:栈最典型的一个应用就是用来对表达式求值嘛,而程序的方法执行,归根到底就是一步步的计算过程嘛,因此不难理解,操作数栈就是用于该方法的执行过程中的计算。
③、动态链接:因为方法执行可能需要用到一些类定义的常量,此时需要一个指向它的引用,所以该步骤进行的是把符号引用转变成直接引用,体现于多态的应用时,子类在运行时可能会执行父类的方法,会执行多一次把符号引用转变成直接引用。
④、方法返回地址:就是存储方法执行完需要return返回的那个地址信息。
⑤、附加信息:一般不关注,因为该处存的是类似栈深度的信息(各个虚拟机实现方式不同导致)。
4、本地方法栈
JVM采用本地方法堆栈来支持native方法的执行,此区域用于存储每个native方法调用的状态。native方法会是一些C++编译打包成的底层方法之类。
5、程序计数器
程序计数器也被称为PC寄存器,是线程私有的。
每个线程都会有一个程序计数器,CPU在任一时刻,会执行某一个线程中的指令,因此需要一个计数器来存储每个线程执行到的哪一个指令以及下一个指令是什么,这样才不会出现执行乱套。JVM规范中,执行非native方法时,程序计数器存的是线程当前执行指令地址,执行native方法时,程序计数器存储的地址是undefined。
总结一下,JVM表面的原理已经这么多了,深层源码会更复杂,人类的进步真是越来越可怕啊。。。。。