Hadoop 垃圾回收机制原理及其源码分析

一、两个主要的配置参数:

fs.trash.interval

默认值为:0(代表删除的数据不进入垃圾桶,直接删除)

单位:分钟

描述:垃圾数据保存的时间

fs.trash.checkpoint.interval

默认值为:0

单位:分钟

描述:多久进行一次垃圾清理和创建检查点的检测,默认值为0,此时如果设置了 fs.trash.interval,则该值就会和 fs.trash.interval 的值保持一致,另外该值只能小于等于 fs.trash.interval 的值。

二、原理介绍:

NameNode在启动的时候,会创建一个专门用于垃圾回收的守护线程,该线程会根据参数fs.trash.checkpoint.interval 对应的值周期性的从睡眠中苏醒过来,执行两个主要的操作:

1)先执行垃圾清理操作,清理的原理是如下图所示的目录上面的数字代表的是垃圾检查点创建的时间(yyMMddHHmmss),拿当前时间减去该时间,如果大于参数fs.trash.interval 设置的时间,则将该检查点的数据递归的清理掉(其中Current目录会被过滤掉),否者不操作。

2)使用当前的时间将Current目录重命名成日期目录,作为之前一个fs.trash.checkpoint.interval 周期的数据的检查点。

三、源码分析:

1.在NameNode源码中有如下代码,代表着启动垃圾回收机制

    @Override

    public void startActiveServices() throws IOException {

      try {

        namesystem.startActiveServices();

        startTrashEmptier(conf);

      } catch (Throwable t) {

        doImmediateShutdown(t);

      }

    }

2.下面是启动垃圾排空方法的实现,

可以看出其创建了一个守护线程用于垃圾的清理,通过创建Trash对象,可以获取到Emptier对象

3.可以看出Trash类继承与Configured,主要用于保存配置信息和垃圾策略对象。

4.从中可以看到垃圾都被放到了每个用户的目录下。

5.TrashPolicy类中的getInstance方法,

使用反射创建TrashPolicy对象,从源码中也可以看到,我们也可以自己实现自己的垃圾回收策略,并通过在配置文件中使用key:fs.trash.classname指定为自己的实现的类,来使用自己的垃圾回收策略。系统默认实现的垃圾回收策略类是:TrashPolicyDefault

6.之后调用TrashPolicyDefault的初始化方法,

其中最开始处的两个参数就在此时获取其对应的值的,并且会创建一些常量用于回收时进行路径和时间的判断的。

7.创建完TrashPolicyDefault之后,NameNode就会调用getEmptier方法获取一个Emptier对象,用于垃圾的真正的清理。

Emptier类是类TrashPolicyDefault的内部类,因此,该类能访问类TrashPolicyDefault中的很多成员变量,另外类Emptier是Runnable的子类,也是垃圾回收线程真正执行的类,从类Emptier的构造方法中可以看出开头介绍的参数 fs.trash.checkpoint.interval 的值必须要小于等于 fs.trash.interval 的值。

8.之后NameNode会调用this.emptier.start(); (在步骤2中可以看到)方法将线程启动,之后就开始执行类Emptier中的run方法:

从中可以看出,当NameNode程序启动后,其会根据排空间隔时间让线程进行休眠,当线程苏醒之后,就开始执行删除操作和创建检查点操作。

9.垃圾删除操作真正执行的方法,删除策略:

1)Current目录下的垃圾不删除。

2)是日期目录的,将日期目录转换成对应的时间的毫秒值,之后让当前时间减去上面的值,判断是否超过了配置的删除时间,如果超过,就执行递归的删除操作。

10. 创建检查点的方法,

即创建上面删除事需要使用的日期目录方法,该方法将当前时间转换成 yyMMddHHmmss 格式日期,并创建对应的Path对象,之后使用rename方法将Current目录重命名成上面的日期目录,用于下次执行时判断是否需要删除垃圾数据的依据。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,133评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,682评论 3 390
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,784评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,508评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,603评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,607评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,604评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,359评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,805评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,121评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,280评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,959评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,588评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,206评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,442评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,193评论 2 367
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,144评论 2 352

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,647评论 18 139
  • 微博微信上“改良版”世界名画层出不穷,这些年,人们好像对恶搞名画这件事乐此不彼。 格调彩绘小编时常在想,人家好好的...
    格调彩绘阅读 986评论 0 1
  • 今天是更新的第二天,我想说的是关于我是怎么对待工作的? 工作对于每个人都是很重要的,是谋生的手段,获得物质的途径,...
    风雨里阅读 272评论 0 0