简谈垃圾回收机制
什么是垃圾回收机制?
垃圾是堆中 unreferenced objects, 就是没有被变量引用的变量。
什么是堆?
这里就要讲到程序的堆栈。这个东西与数据结构里面的堆栈有所区别。
首先来讲什么是栈。现在考虑下面这种情况。
void bar(int a){
printf("%d",a );
}
void foo(){
int a = 0;
bar(a);
}
int main(){
foo();
reutrn 0;
}
请问 CPU 是如何执行这里的程序呢?由于CPU只能一条一条的执行指令,当 bar 结束时,我们如何能够知道下一条指令应该执行什么呢?其中一个想法时,用 CPU 的一个寄存器保存之前 caller 的下一条命令的地址,当 bar 结束后继续执行就可以了。但是如果是有许多层的调用,显然CPU的寄存器就不够使用了。这里栈就应运而生了。最简单的一个例子是,如何将递归调用的程序改为非递归的。这里就是用到了 stack 这个数据结构。在程序运行中也一样当程序发生调用时。会1、将 caller 的下一个指令的地址压栈。2、将 called 函数的参数从右向左压栈。3、将 called 函数的局部变量在栈中分配存储空间。函数结束时再将这些东西出栈。
这里就有了一个问题,如果 called 程序猿手动的分配了一个内存空间,将之中传给 caller 函数指针可以对这些内存空间进行访问。如下。那么这个分配的内存空间是放在哪里呢?如果放在 stack 中,当函数返回时,这个内存空间就被弹出了。
int * bar(int a){
int *p = malloc(a);
printf("%d",a );
return p;
}
void foo(){
int a = 1000;
int *p = bar(a);
free(p);
}
int main(){
foo();
reutrn 0;
}
为了解决这个问题,就出现了堆这种东西。这个与数据结构中的堆有所区别。
堆区(heap) — 一般由程序员分配释放, 若程序员不释放,程序结束时可能由OS回收。
上例中的 malloc 出来的空间就是放在堆里面的。一般来说 new 出来的对象或者内存空间都是放在堆里面的。
更详细的东西可以参考:C函数调用过程原理及函数栈帧分析
什么是 Garbage?
Student ali= new Student();
Student khalid= new Student();
ali=khalid;
此时 ali 已经没有被引用了。所以你没有办法再访问这个内存空间。为了防止过多这样无法访问的内存空间的出现,就需要通过垃圾回收的机制来回收内存。在 C/C++ 中需要程序员手动回收内存。而在 Java 中 Java 虚拟机帮助我们完成这个事情。
什么是 GC
gc 是 Garbage Collection 的简称,是指找到垃圾,并且回收分配给它的内存。
什么时候会触发GC?
当分配给程序的内存会超过一定的门限时会触发GC
程序会受到GC的影响么?
会的,当GC时,程序会挂起。
GC的方式
1 引用计数 Reference counting
这个概念和操作系统中的 page 从 内存中换出,以及 hard link 删除文件等等都是用到引用计数的概念。当被分配的内存空间被引用时,refcount++, 当解除引用时 refCount—。当refCount = 0 时这个内存空间便是垃圾。
python 就是用的 引用计数法。这种GC机制的好处就是简单,但是会有一个问题,即循环引用的问题。
如图所示,由于循环引用的存在,这些内存空间在进程结束之前是没有办法被回收的。并且这种方式会造成 heap 的碎片化。
2 第二种方式 mark-and-sweep 的方式
这种方式分为两个步骤
2.1 Mark phase
GC 从 root node 遍历引用的图。什么是 GC roots 呢? 作为GC Roots的节点主要在全局性的引用与执行上下文中。从这些 roots node 开始遍历 heap 中的对象,可以访问的标记 1.
2.2 Sweep phase
GC 回收heap中没有被标记 1 的空间。
这种方式的好处是
- 避免了循环引用
- 对对象的引用关系没有修改
坏处处是
- GC 过程中必须 挂起程序,因为遍历的过程如果 reference graph 改变,会出现不一致情况。
- 造成碎片化。
解决碎片化的问题
3 Stop-and-Copy Garbage Collection
将内存分为两部分,在 sweep 阶段将 mark 的对象copy 到另一半内存中。
4 增量收集器
增量收集器把堆栈分为多个域,每次仅从一个域收集垃圾。这会造成较小的应用程序中断。
如果 mutator 在 collector 遍历某对象后将其释放(floating garbage),那么这个对象在本次 GC 不会被回收,但在下一轮 GC 开始时会被回收。
但是增量 GC 可能会有问题。
Incremental Update
如果改变某个指针的地址,那么之前的地址会被加入一 marking stack,便于后面再次检查,这样就可以保证在 GC 时,所有的对象都会被遍历到,即使指向它们的指针发生了改变。
Incremental Copying
当 mutator 访问到 fromspace 中的对象时,立刻将之拷贝到 topspace 中。这个 copy-on-demand 使用 read-barrier 来保证。什么是读屏障呢?读屏障就是访问每一个对象都是通过每个对象的 redirection pointer 来进行访问对象。这样通过对这个指针的状态的设置可以保证访问的是GC copy 后面的新地址,比如当对象正被GC移动,指针上的颜色就会不对,这个屏障就会先把指针更新为有效地址再返回
JAVA 中的GC方式
分代算法:新生代使用复制算法,老生带使用标记清除算法或者标记压缩算法。几乎所有的垃圾回收期都区分新生代和老生带。