要点提炼| 理解JVM之内存管理机制

本系列专题的第二个板块“理解JVM”是对周志明老师的《深入理解Java虚拟机》著作的学习和扩展，也是在春招过程中发现自己Java基础的不足，特意精选了几个重要知识点进行总结。关于Java技术体系的过去、现在和未来等介绍推荐阅读走近 Java，现在先从非常重要的内存管理开始吧~

本篇将了解JVM内存是如何划分的，以及每个区域的具体内容。

概述
JVM内存区域划分
操作系统内存与JVM内存
HotSpot虚拟机内存对象探秘

1.概述

Java与C++之间有一堵由内存动态分配和垃圾回收机制所围成的高墙，墙外面的人想进去，墙里面的人出不来。

必要性：虽然JVM有自动内存管理机制，不需要人为地给每一个new操作写配对的delete/free代码，不容易出现内存泄漏和内存溢出问题。然而一旦出现内存泄漏和溢出方面的问题，如果不清楚JVM内存的内存管理机制，那么将很难定位与解决问题。

2.JVM内存区域划分

JVM执行Java程序的过程：Java源代码文件(.java)会被Java编译器编译为字节码文件(.class)，然后由JVM中的类加载器加载各个类的字节码文件，加载完毕之后，交由JVM执行引擎执行。

在上述过程中，JVM会用一段空间来存储执行程序期间需要用到的数据和相关信息，这段空间就是运行时数据区（Runtime Data Area），也就是常说的JVM内存。JVM会将它所管理的内存划分为若干个不同的数据区域，划分结果如图：

可见，运行时数据区被分为线程私有数据区和线程共享数据区两大类：

线程私有数据区包含：程序计数器、虚拟机栈、本地方法栈
线程共享数据区包含：Java堆、方法区（内部包含常量池）

接下来分别介绍：

a.程序计数器（Program Counter Register）

是当前线程所执行的字节码的行号指示器。
- 如果线程正在执行的是一个Java方法，那么计数器记录的是正在执行的虚拟机字节码指令的地址；
- 如果线程正在执行的是一个Native方法，那么计数器的值则为空。

字节码解释器工作时，就是通过改变这个计数器的值来选取下一条需要执行的字节码指令，分支、循环、跳转、异常处理、线程恢复等基础功能都需要依赖这个计数器来完成。

为了线程切换后能恢复到正确的执行位置，每条线程都需要有一个独立的程序计数器，各条线程之间计数器互不影响，独立存储，因此它是线程私有的内存。
在Java虚拟机规范中，是唯一一个没有规定任何OutOfMemoryError情况的区域。

b.Java虚拟机栈（Java Virtual Machine Stacks）

是Java方法执行的内存模型。
- 每个方法在执行的同时都会创建一个栈帧，用于存储局部变量表、操作数栈、动态链接、方法出口等信息。
- 每一个方法从调用直至执行完成的过程，就对应着一个栈帧在虚拟机栈中入栈到出栈的过程。

局部变量表存放了编译期可知的各种基本数据类型、对象引用类型和returnAddress类型，它所需的内存空间在编译期间完成分配。

是线程私有的内存，与线程生命周期相同。
一般把Java内存区分为堆内存（Heap）和栈内存（Stack），其中『栈』指的是虚拟机栈，『堆』指的是Java堆。
在Java虚拟机规范中，对这个区域规定了两种异常状况：
- 如果线程请求的栈深度大于虚拟机所允许的深度，将抛出StackOverflowError异常；
- 如果虚拟机栈可动态扩展且扩展时无法申请到足够的内存，将抛出OutOfMemoryError异常。

c.本地方法栈（Native Method Stack）

是虚拟机使用到的Native方法服务。
在虚拟机规范中，对这个区域无强制规定，由具体的虚拟机自由实现。与虚拟机栈一样，本地方法栈区域也会抛出StackOverflowError和OutOfMemoryError异常。

d.Java堆（Java Heap）

用于存放几乎所有的对象实例和数组。
被所有线程共享的一块内存区域，在虚拟机启动时创建。

在Java堆中，可能划分出多个线程私有的分配缓冲区（Thread Local Allocation Buffer，TLAB），但无论哪个区域，存储的都仍然是对象实例，进一步划分的目的是为了更好地回收内存，或者更快地分配内存。

是垃圾收集器管理的主要区域，也被称做“GC堆”。
是Java虚拟机所管理的内存中最大的一块。
可处于物理上不连续的内存空间中，只要逻辑上是连续的即可。
在Java虚拟机规范中，如果在堆中没有内存完成实例分配，且堆也无法再扩展时，将会抛出OutOfMemoryError异常。

e.方法区（Method Area）

用于存储已被虚拟机加载的类信息、常量、静态变量、即时编译器编译后的代码等数据。
与Java堆一样，是各个线程共享的内存区域。
人们更愿意把这个区域称为“永久代”（Permanent Generation），在发布的JDK1.7的HotSpot中，已经把原本放在永久代的字符串常量池移出。它还有个别名叫做Non-Heap（非堆）。
和Java堆一样不需要连续的内存和可以选择固定大小或可扩展外，还可选择不实现GC。
在Java虚拟机规范中，当方法区无法满足内存分配需求时，将抛出OutOfMemoryError异常。

f.运行时常量池（Runtime Constant Pool）

Class文件中除了有类的版本、字段、方法、接口等描述信息外，还有一项信息是常量池（Constant Pool Table），用于存放编译期生成的各种字面量和符号引用，这部分内容将在类加载后进入方法区的运行时常量池中存放。

相对于Class文件常量池的一个重要特征是具备动态性，体现在并非只有预置入Class文件中常量池的内容才能进入方法区运行时常量池，运行期间也可能将新的常量放入池中。
是方法区的一部分，会受到方法区内存的限制。
在Java虚拟机规范中，当常量池无法再申请到内存时会抛出OutOfMemoryError异常。

3.操作系统内存与JVM内存

从上图可见操作系统内存和JVM内存的联系：

操作系统分为栈和堆：

栈由操作系统管理，并由操作系统自动回收。

JVM本地方法栈使用的是操作系统的栈。

堆由用户分配使用。

除JVM本地方法栈以外的JVM内存使用的操作系统的堆，以防JVM分配的内存被操作系统回收。

图片来源：JVM内存管理—运行时内存区域

4.HotSpot虚拟机内存对象探秘

在熟悉虚拟机内存划分及其具体内容之后，为详细了解虚拟机内存中数据的其他细节，以常用的虚拟机HotSpot和常用的内存区域Java堆为例，探讨HotSpot虚拟机在Java堆中对象分配、布局和访问的全过程。

a.对象的创建：遇到一个new指令后创建过程分三步

类加载检查：检查new指令的参数是否能在常量池中定位到一个类的符号引用且该符号引用代表的类是否已被加载、解析和初始化，若没有则需先执行相应的类加载，反之下一步。
分配内存：由Java堆中的内存是否规整决定如何给新生对象分配可用空间。
- 若规整，采用“指针碰撞”分配方式：
  - 过程：将用过和空闲的内存放在两边，中间以一个指针作为分界指示器。当分配内存时，就把指针向空闲一边挪动与对象大小相等的距离即可。
  - 应用：Serial、ParNew等带Compact过程的收集器。
- 若非规整，采用“空闲列表”分配方式：
  - 过程：维护一个记录可用内存块的列表。当分配内存时，就从列表中找到一块足够大的空间划分给对象实例并更新记录。
  - 应用：基于Mark-Sweep算法的CMS收集器。

保证内存分配是线程安全的解决方案：

对内存分配的动作进行同步处理；

每个线程在Java堆中预先分配一块内存（本地线程分配缓冲TLAB），在本线程的TLAB上进行分配，当TLAB用完需要分配新的TLAB时再同步锁定。

设置对象头：将对象的所属类、找到类的元数据信息的方式、对象的哈希码、对象的GC分代年龄等信息存放在对象的对象头中。

经过上述步骤，一个对象就产生了，但此时所有的字段都还为零，还需要执行<init>方法进行初始化，才能成为真正可用的对象。

b.对象的内存布局：分为三块区域

对象头（Header）：包括两部分信息
- Mark Word：用于存储对象自身的运行时数据，如哈希码、GC分代年龄、锁状态标志、线程持有的锁、偏向线程ID、偏向时间戳等。
- 类型指针：用于确定这个对象的所属类。
实例数据（Instance Data）：存储真正的有效信息，是程序代码中定义的各种类型的字段内容。存储顺序会受虚拟机分配策略参数和字段在Java源码中定义顺序这两个因素影响。
对齐填充（Padding）：占位符，帮助补全未对齐的对象实例数据部分（保证是8字节的倍数），非必需。

c.对象的访问定位：主流的两种访问方式

通过句柄访问对象：在Java堆中划分出一块内存来作为句柄池，reference存储的是对象的句柄地址，在句柄中包含了对象实例数据与类型数据各自的具体地址信息。好处：reference中存储的是稳定的句柄地址，在对象被移动时只会改变句柄中的实例数据指针，而reference本身不需要修改。
通过直接指针访问对象：在Java堆对象的布局中考虑如何放置访问类型数据的相关信息，reference存储的直接就是对象地址。好处：速度更快，节省了一次指针定位的时间开销。

下篇将介绍和内存管理紧密相关的垃圾回收机制。