Hadoop存储系统——基本概念及通信协议简介

Hadoop是一个分布式系统,其包括两大核心内容,一个是并行计算框架MapReduce,另一个就是分布式存储系统HDFS了。从分布式系统理论的角度考虑,一般的分布式系统需要考虑的核心问题包括:数据分块、元数据管理、高可靠性、高可用性、高可扩展性、容错控制、高吞吐量以及高传输等问题;从架构上来讲主流模型是P2P模型和主从结构模型,对外来讲只需要暴露一个统一的访问接口、对用户透明,而且要保护用户数据的一致性。

Hadoop的存储系统HDFS就是这样的一个分布式文件系统,HDFS使用廉价的商用硬件搭建系统并向大量用户提供可容错的高性能服务,并能提供高吞吐量的数据访问。Hadoop分布式文件系统是由一个Master和大量服务器Slave构成的。Master可存放文件系统的所有元数据,包括名称空间、访问控制、文件分块信息、文件块的位置信息等。HDFS中的文件默认切分为64MB的块进行存储。为了保证高可靠性和高可用性,采用冗余存储机制的方式来保存数据,每份数据在系统中至少保存3个以上的备份。为了保证数据的一致性,对于数据的修改需要在所有数据中进行,并用版本号的方式来确保所有备份处于一致的状态。HDFS作为Hadoop的基石为分布式计算框架MapReduce提供底层的分布式存储支撑。

NameNode 

HDFS采用Master/Slave架构,NameNode就是HDFS的Master架构,主要负责HDFS文件系统的管理工作,包括名称空间(namespace)管理,文件Block管理。NameNode提供的是始终被动接受服务的Server,他主要有三类协议接口(1、2、3):

1. ClientProtocol接口:

ClientProtocol协议用于客户端和NameNode之间的交流。客户端通过·此协议可以操纵HDFS的目录命名空间、打开与关闭文件流等。该接口协议中定义的与文件内容相关的操作主要有:(1)文件管理,文件的增、删、改,权限控制、文件块管理等;(2)文件系统管理,查看文件系统状态和设置元数据信息,例如容量、块大小、副本因子数等;(3)持久会话类,如放弃对指定块的操作、客户端同步等。

2.DataNodeProtocol接口:

该协议用于DataNode和NameNode之间进行通信,例如发送心跳报告和块状态报告。一般来说,NameNode不直接对DataNode进行RPC(后面的文章会介绍)调用,如果一个NameNode需要与DataNode进行通信,唯一的方式,就是通过调用该协议接口定义的方法。

3.NameNodeProtocol接口:

该协议接口定义了备用NameNode(Secondary NameNode)(注意,他不是NameNode的备份) 他是一个用来辅助NameNode的服务器端进程,主要是对映像文件执行特定的操作,另外,还包括获取指定DataNode块上的操作。

在HDFS内部,一个文件被分成一个或多个Block,这些Block存储在DataNode集合里,NameNode就负责管理文件Block的所有元数据信息,这些元数据信息主要为:

1. 文件名到数据块的映射

2. 数据块到DataNode列表的映射

其中,文件名到数据块的映射保存在磁盘上进行持久化存储,需要注意的是NameNode上不保存数据块到DataNode列表的映射,该列表是通过DataNode上报给NameNode建立起来的。NameNode执行文件系统的名称空间操作,例如打开、关闭、重命名文件和目录,同时决定文件数据块到具体DataNode节点的映射。

NameNode主要维护两个文件,一个是fsimage,一个是edits。

fsimage :保存了最新的元数据检查点,包含了整个HDFS文件系统的所有目录和文件的信息。对于文件来说包括了数据块描述信息、修改时间、访问时间等;对于目录来说包括修改时间、访问权限控制信息(目录所属用户,所在组)等。简单的说,fsimage就是在某一时刻,整个HDFS 的快照,就是这个时刻HDFS上所有的文件(文件到块的映射信息,并不包括数据块到DataNode的映射)和目录,分别的状态,各自的权限,各自的副本个数等。

注意:Block的位置信息不会保存到fsimage,即NameNode上不保存数据块到DataNode列表的映射,Block保存在哪个DataNode由DataNode启动时上报给NameNode。

editlog :主要是在NameNode已经启动情况下对HDFS进行的各种更新操作进行记录,HDFS客户端执行所有的写操作都会被记录到edits中。

为什么会需要edits? fsimage文件和edits文件可以确定NameNode节点当前的状态,这样在NameNode节点由于突发原因崩溃时,可以根据这两个文件中的内容恢复到节点崩溃前的状态,所以对NameNode节点中内存元数据的每次修改都必须保存下来。但是如果每次都保存到fsimage文件中,这样效率就特别低效,所以引入编辑日志文件edits,保存对对元数据的修改信息,也就是fsimage文件保存NameNode节点中某一时刻内存中的元数据(即目录树),edits保存这一时刻之后的对元数据的更改信息。但时间长了edits也会变得很大,这就需要定期对Secondary NameNode和NameNode进行合并操作,之后会讲到。

Secondary NameNode

主要由两个作用,一是镜像备份(不是NN的备份,但可以做备份),二是日志与镜像的定期合并。

在UNIX/Linux系统中有一个数据块(Data Block)的概念,Data Block是文件系统读写的最小数据单元。一般在文件系统中数据块的大小是512字节,一个文件所占大小就是数据块大小的整数倍。HDFS也有一个块的概念,不同之处在于HDFS为了满足大数据的效率和整个集群的吞吐量选择了更大的数值,默认为64MB。和一般文件系统不同的是,虽然块设置的比较大,但是当一个文件的大小小于HDFS的块大小时,实际存储所占的大小并不占用一个块的大小。

客户端在读取HDFS上的一个文件时就以块为基本的数据单元。例如一次简单读取,首先,客户端把文件名和程序指定的字节偏移,跟据固定的Block大小转换成文件的Block索引。然后,客户端把文件名和Block索引发送给Master节点,Master节点将相应的Block标识和副本的位置信息返回给客户端,客户端用文件名和Block索引作为key缓存这些信息,之后客户端发送请求到其中的一个副本,一般会选择最近的。请求信息包含了Block的标识和字节范围。在对这个Block的后续读取操作中,客户端不必再和Master节点通信了,除非缓存的元数据信息过期或文件被重新打开。实际上,客户端通常会在一次请求中查询多个Block信息,Master节点的回应也可能包含了紧跟着这些被请求的Block后面的Block的信息。在实际应用中,这些额外的信息在不花费任何代价的情况下,避免了客户端和Master节点未来可能会发生的几次通信。

参考资料:《Hadoop核心技术》

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,122评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,070评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,491评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,636评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,676评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,541评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,292评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,211评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,655评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,846评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,965评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,684评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,295评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,894评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,012评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,126评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,914评论 2 355

推荐阅读更多精彩内容