Hadoop集群之HDFS

HDFS简介

HDFS全称Hadoop Distributed File System,是一个分布式文件系统,基于Google三大论文之一的Google File System开发。主要为了解决在多个普通的节点(廉价的机器,只要有存储空间,cpu和内存要求不高)上存储并访问日益增长的业务数据,并且在理论上可以实现横向无限扩展。

架构介绍

HDFS采用的是主从架构(Master/Slave),其中namenode是主节点,datanode是从节点,如下图所示:
HDFS架构
  • Namenode
    1.接收客户端的读写请求
    2.存储文件的元数据,主要包括文件的文件名,Block信息,副本数,文件的位置信息等
    3.接收Datanode的心跳上报
    所以,如果Namenode很重要,如果down掉将不能接受Client请求,整个HDFS将不可用。
  • Datanode
    1.客户端实际的读写IO
    2.接受Namenode指令,进行Datanode之间的block副本的拷贝
    3.上报给Datanode自身的信息(健康状况、文件读写情况等)
  • Block
    一个大文件被切分成多个Block块,Hadoop 2.0后块的默认大小是128M,一个Block有多个副本,它们被存储在不同的节点上,具体存储策略可查阅相关资料。

常用命令

HDFS是一个文件系统,它遵循了与Linux类似的POSIX标准,所以有类似于linux的shell命令行操作接口(命令)。主要提供了User Commands、Admin Commands以及Debug Commands:

HDFS命令

常用的用户命令有dfs、fsck,下面举个例子:
1.查看根目录下的文件列表
hdfs dfs -ls /
2.查看根目录下所有文件的大小
hdfs dfs -du /
等,fsck主要用来查看文件的block信息,以及修复损坏的block等。
常用的管理命令有balancer,用来平衡各个Datanode节点之间的存储负载。
具体各个命令的用法可以查询官方文档HDFS命令,自己去探索。

内存受限问题

为了快速响应文件读写请求,HDFS把所有的元数据都存储在Namenode内存中,随着业务数据增多或小文件很多,都会导致Namenode 占用内存不断增加,如果占用内存接近极限,会导致HDFS不可用,这样就导致了内存受限问题。在实际生产环境中,可以用官方的Federation解决方案,按业务分成多个HDFS集群;也可以提前评估数据基数及其增长速度,保证Namenode有足够的可用内存;同时要做好定时小文件的合并。

单点故障问题

我们上面已经讲到Namenode在集群中的地位至关重要,如果它down掉了将影响整个集群的访问,存在单点故障问题,主要表现在以下几方面:

  • 如果Namenode挂掉了,无法接收Client的读写请求,直接影响业务
  • Namenode节点挂掉后,如果元数据信息丢失(比如硬盘损坏),整个集群数据将无法恢复,造成灾难性后果

    针对以上两点,首先要有一个备份的Namenode,在当前Namenode挂掉后可以马上接管读写请求,不影响业务;另外,要把元数据的信息(edits文件) 存储在公共的区域而不是存储在Namenode节点本地,防止Namenode节点机器故障后元数据信息丢失导致数据无法恢复。常用的高可用解决方案为QJM:
    HDFS HA
  • 包含多个Namenode节点,其中只有一个active,接收Client读写请求;其他是standby,除了不能接收Client读写请求,它同样存储元数据信息,接受Datanode上报Block信息,以便在变为active状态是可以快速接受Client请求。
  • Namenode Active、Standy的状态选择和切换由Zookeeper完成。每个Namenode都伴随着一个zkfc服务,用来监控Namenode可用性,如果其检测到对应的Namenode不可用,则上报给zk,zk从其他Standby的Namenode节点中选择一个为Active,通知zkfc把该Namenode变为Active,这样就实现了瞬间接管。
  • 还有一个问题,那就是元数据的存储问题。为了避免元数据存储在本地时(edits文件)机器故障导致数据无法恢复,在该HA方案中,元数据被存储在Journalnode节点中,为了防止单点故障,一般会有多个Journalnode节点形成一个集群(存储edits文件的多个备份),Namenode不断向Journalnode集群同步元数据,在恢复HDFS集群时,会从Journalnode中加载元数据

关键指标

上面已经详细介绍了HDFS的架构及高可用原理,现在总结一下HDFS运维过程中应该主要关注的一些指标:
1.Namenode Memory,如果该指标已经占比比较高(90%以上),则需要考虑扩展内存,合并文件,清除无用文件
2.Namenode GC Time,如果GC Time比较长,且Namenode RPC queue wait time比较长,则考虑Journalnode 元数据同步可能有问题,需要重启Journalnode
3.Corrupted Blocks,如果损坏Block较多,需要手动修复
4.Under Replicated Blocks,如果副本数缺失很多,需要手动补充副本。

完。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,185评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,445评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,684评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,564评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,681评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,874评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,025评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,761评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,217评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,545评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,694评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,351评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,988评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,778评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,007评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,427评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,580评论 2 349

推荐阅读更多精彩内容