对于经常使用 Spark 的人来说,如何设置 driver 或 executor 的内存大小,如何尽量减少 GC 相信不会陌生。要做好这两点,除了 Spark 知识的掌握外,还需要对 JVM 内存及 GC 机制有一定了解。本着能写出更好的 Spark Application 代码及让 Spark Application 更好的运行的目的,最近我进行了相应的学习,并希望以博客的形式记录,这是第一篇,来说明 JVM 运行时内存是如何划分的。
JVM 运行时内存划分如上图所示,其中橙色区域为线程私有的,包括:虚拟机栈、本地方法栈、程序计数器;蓝色区域为线程共享的,包括:堆区、方法区。下面进行一一介绍
- 程序计数器
- 是一块比较小的内存区域
- 用来记录当前线程执行到的字节码行号
- 由于只是用来记录行号,所以不存在内存溢出情况,是 JVM 内存区域中唯一一个没有定义 OutOfMemoryError 的区域
- 每个线程都需要一个程序计数器用来记录执行哪行字节码,所以程序计数器是线程私有的
- 虚拟机栈
- 每个方法调用时,线程都要为该方法创建一个栈帧,主要用来保存该函数的返回值、局部变量表(用于存放方法参数和方法内部定义的局部变量)动态连接、操作数栈(保存数据类型)等
- 当方法被调用时,栈帧在虚拟机栈中入栈,当方法执行完成时,栈帧出栈
- 一个线程中的方法调用可能会很长,很多方法处于执行状态。在线程中,只有虚拟机栈顶的栈帧才是有效的,称为当前栈帧,该栈帧所关联的方法称为当前方法
- 虚拟机栈中,定义了两种异常:
- StackoverflowError:当线程调用的栈深度大于虚拟机允许的最大深度
- OutOfMemoryError:线程一只申请栈,直到内存不足(多数 Java 虚拟机允许动态扩展虚拟机栈的大小)
- 每个线程都对应一个虚拟机栈,因此虚拟机栈也是线程私有的
- 本地方法栈
- 在作用、运行机制、异常类型方面都与虚拟机栈相同,唯一的区别:虚拟机栈是执行 Java 方法的,而本地方法是用来执行 native 方法的(naive 是与 C/C++ 联合开发的时候使用的,使用 naive 关键字说明这个方法是 C/C++ 实现的,并且被编译成 dll,由 java 区调用)
- 在很多虚拟机中,会将虚拟机栈和本地方法栈放在一起
- 每个线程都有各自的本地方法栈,所以本地方法栈也是线程私有的
-
堆区
- 在 JVM 所管理的内存区域中,堆区是最大的一块,也是 Java GC 的 “主战场”
- 堆区由所有线程共享,在虚拟机启动时创建
- 堆区的存在是为了存储对象实例,绝大部分对象都在堆区上分配内存
- 堆区内存需要在逻辑上是连续的,不要求在物理上是连续的
- 堆的实现上,可以是固定大小的,也可以是可扩展的,目前主流的虚拟机都是可扩展的
- 如果在执行垃圾回收后,堆区中仍没有足够的内存分配,也不能再扩展,将会抛出 OutOfMemoryError: Java heap space 异常
- 方法区
- 在 Java 虚拟机规范中,将方法区作为堆的一个逻辑部分来对待,但事实上,方法区并不是堆
- 在 HotSpot(JDK 默认虚拟机实现) 中,将方法区当做永久代
- 方法区是各个线程共享的区域,用于存储全局变量、静态变量、常量、加载的类信息(包括版本、方法、接口等)等
- 方法区在物理上也不要求是连续的,可以选择固定大小或可扩展大小
- 可以设置方法区是否进行垃圾回收
- 当内存不足时,方法区会抛出 OutOfMemoryError: PermGen space 异常