Hadoop源码分析-Namenode 安全模式源码深度剖析

本文继续 NameNode 启动流程源码剖析,之前讲解了

  1. Namenode 启动流程跟踪
  2. Namenode Httpserver 启动流程跟踪
  3. Namenode 元数据加载跟踪
    这次讲解下: Namenode 资源检查和是否进入安全模式的判断

一、 Namenode 安全模式源码分析:资源检查

我们在启动 Namenode 的时候,有时会遇到 Namenode 进入安全模式,所以我们一起也来看看这边吧。Namenode 安全模式的代码藏的比较隐蔽,而且名字起的也很随意。

  1. NameNode 服务启动跟踪 的第 4 步,最后有一句代码startCommonServices(conf); 这个方法,这个代码看着很普通,但其实资源检查和安全模式都在这里(吐槽下方法名起不直接)

    image

  2. 我们进入到 startCommonServices(conf);方法,可以看到在 rpcServer 启动前,又调用了namesystem.startCommonServices(conf, haContext);,我们继续跟进:

    startCommonServices

  3. 进入 namesystem.startCommonServices(conf, haContext); 方法后,里面的代码就要注意了(这里代码的命名都比较不好,容易忽略)
    首先要注意 nnResourceChecker = new NameNodeResourceChecker(conf);NameNodeResourceChecker 这个就是 Namenode 的资源检查,我们跟进:

    startCommonServices

  4. 跟进 nnResourceChecker = new NameNodeResourceChecker(conf); 后,发现这里是获得了很多 Namenode 的资源目录,包含editlog存储目录(共享、非共享)、Namenode 配置文件中配置的必须目录等,这些目录都是通过配置文件配置的
    然后把这些目录传入了 addDirToCheck 方法,我们继续跟进addDirToCheck方法

    NameNodeResourceChecker

  5. 跟进addDirToCheck方法后,发现这里把 所有的目录都包装成 CheckedVolume 对象然后又 put 到 volumes 变量中,volumes 变量是个Map集合,到这里第4步中的 nnResourceChecker = new NameNodeResourceChecker(conf); 构造函数算是执行完了,我们继续第 4步中的下一步checkAvailableResources()

    image

  6. 跟进 checkAvailableResources(),后发现就一行代码,继续跟进,发现虽然还是一行代码,但是这里把第 5步中的 volumes 当做参数传过去了,继续跟进

    image

    image

  7. 这里就是对所有传进来的目录都进行了校验,具体的校验方法就是 resource.isResourceAvailable(),再看看这个方法

    isResourceAvailable

  8. 此方法是个抽象方法,需要知道它的实现,我们在第5步的时候知道其实这些目录都被封装成了CheckedVolume对象,所以这个方法的实现类就是CheckedVolume

    image

  9. 进入CheckedVolumeisResourceAvailable方法后,发现这里 其实就是判断此目录的剩余空间是否小于某个值availableSpace < duReserved(这个值是100m,具体看配置吧),如果小于配置的值,则返回false,否则是 true。到这里这边 checkAvailableResources 方法的执行就完成了。

    image

二、Namenode 安全模式源码分析:block数 检查

  1. 其实从6~9就是在给FSNamesystem.hasResourcesAvailable变量赋值为true或false。我们继续6中的代码,也就是startCommonServices中的下一步,这里有这样一行代码 setBlockTotal();,这个代码里就是 启动安全模式 的关键(但是名字起的太普通了)
    image
  2. 我们跟进setBlockTotal();,这里先看 getCompleteBlocksTotal() 方法,看方法名应该是获得 完成的block总数。这里要解释下,其实在 HDFS中的 block 包含两个状态 一个是 Complete ,另一个是 UnderConstruction。这里就是获得 Complete 状态的block数量。
    setBlockTotal
  3. 我们跟进getCompleteBlocksTotal 方法看看,看到getBlocksTotal() - numUCBlocks;这个代码,我们应该了解到 complete状态的block数就是使用 总的block减去 UnderConstruction 状态的 block数。具体判断状态,就不看了
    getCompleteBlocksTotal
  4. 我们继续跟进safeMode.setBlockTotal方法,注意到这里计算了两个值 blockThresholdblockReplQueueThreshold,最后又调用了checkMode()方法
    safeMode.setBlockTotal
  5. 跟进 checkMode()方法,此方法中needEnter()如果返回true就会触发enter()(enter就是进入安全模式),然后我们看看needEnter()方法具体的逻辑
    checkMode
  6. 进入 needEnter()后,看到代码比较简单,就是有三个判断,只要有任何一个是True,就返回True。那我们仔细看看这三个条件吧
    needEnter
  • 条件1、 (threshold != 0 && blockSafe < blockThreshold)
    如果 blcok 阈值不等于0,且 安全模块(blockSafe) 小于 阈值模块
    blockSafe:只要有一个副本就是 blockSafe

  • 条件2、 (datanodeThreshold != 0 && getNumLiveDataNodes() < datanodeThreshold)
    如果 dataNode 活跃最小阈值不等于0,且活跃的 DataNodes 小于最小阈值时,进入安全模式
    datanodeThreshold 默认为0,由 dfs.namenode.safemode.min.datanodes 指定
    LiveDataNodes: 当前时间 - DataNodes 心跳最后的时间 < 10分30秒

  • 条件3、(!nameNodeHasResourcesAvailable());
    如果,NameNode 资源检查无效,进入安全模式

三、Namenode 安全模式源码分析:获取Datanode活跃数

前两节分析的就是 第1个条件和第3个条件,而第2个条件并没有分析,我们这一节就看看这个代码。


needEnter
  1. 先看 datanodeThreshold 在哪里赋值的,通过搜索发现该变量是在配置文件中配置的,dfs.namenode.safemode.min.datanodes,默认值是0,所以默认情况下,2 这个条件直接就不判断了。但是我们还可以继续看看判断Datanode活跃的代码。
    image
  2. 跟进 getNumLiveDataNodes(),看到就一句代码
    image
  3. 继续跟进 .getNumLiveDataNodes();,可以看到,判断Datanode是否活跃的主要代码其实就是 !isDatanodeDead(dn),也就是说,不是死亡的 datanode就是活跃的
    image
  4. 继续跟进 !isDatanodeDead(dn) ,可以看到就一句代码,此代码就是计算 datanode是否死亡的代码。node.getLastUpdateMonotonic() 就是最后一次心跳的时间 ,monotonicNow()就是当前时间,heartbeatExpireInterval是心跳过期间隔;
    所以计算公式就是:
    如果 当前时间 - 最后一次心跳时间 > 心跳过期间隔 那么就认为Datanode死亡了。
    image
  5. 最后看看 heartbeatExpireInterval 是多少呢?
    heartbeatRecheckInterval 默认是5分钟, heartbeatIntervalSeconds默认是3秒,他们在配置文件里都有配置,具体代码就不跟了。
    image

4. 总结

到此:Namenode 安全模式的代码就分析完了。这里画个图简单的描述情况


image

点击这里查看原文地址

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,377评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,390评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,967评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,344评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,441评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,492评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,497评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,274评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,732评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,008评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,184评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,837评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,520评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,156评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,407评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,056评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,074评论 2 352

推荐阅读更多精彩内容