3.Hadoop 2.x 深度内容

1. HDFS架构:

1. 架构综述:

HDFS是master/slave架构。HDFS集群包含一个namenode和多个datanode;namenode管理文件系统namespace,并且管理客户端对文件的访问。datanode用来管理数据存储。

HDFS 架构

Namenode存储元数据信息。一个文件在被存进HDFS之前,被切分成多个“数据块”。对于之前的设定,通常replication=3, 每个块会被冗余成3个块,存储在不同的datanode中,对于每一个数据块和datanode的mapping关系(每一个数据块存储在哪个datanode节点上)存储在namenode中。NameNode响应文件系统客户端的读和写请求,Namenode接受客户端的元数据操作请求(Metadata ops),并下发给Datanode 块操作(Block ops)。DataNode在Namenode的操作说明支持下,执行数据块的创建、删除、创建副本等操作。

对于最后的读写操作,客户端直接从Datanode读数据和写数据(Namenode会动态分配给Client离它最近的Datanode,“客户端是指运行在datanode上的程序”)。

HDFS上的文件,可以创建、删除、移动或重命名,当文件创建、写入和关闭之后不能修改文件内容。

2. Namenode功能:

(1)Namenode决定数据块的复制。

(2)周期性的获得集群的datanode的心跳(Heartbeat)和块状态报告(Blockreport)。

(3)HDFS的中心服务器;负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。

(4)客户端(Client)访问HDFS集群的入口。

(5)响应给客户端的数据直接由datanode传出。Namenode负责文件元数据的操作,Datanode负责处理文件内容的读写请求。

(6)读取文件时NameNode尽量让用户先读取最近的副本,降低带块消耗和读取延时。副本存在哪些datanode上由Namenode来控制。

3. DataNode功能:

(1)存储数据,以块为单位进行存储(128M)。数据块在Datanode以文件存储在磁盘上,包括2个文件,一个是数据本身,一个是元数据(数据块长度、块数据的校验和、时间戳)。

(2)每隔一个小时向namenode报告块的状态(1H);

(3)周期性向namenode注册(心跳),如果Namenode超过10分钟没有收到某个Datanode的心跳信息,则认为该Datanode不可用,不再读取该datanode数据和向该datanode写入数据。

(4)在线加入/卸载服务器。

4. DataBlock Replication


Block Replication

假如replication factor是3,那么同一个数据块有3份。那么这3份冗余的数据块的存储规则一般情况下是: 在本机架的一个node上存第一个;在同一机架的不同node上存第二个;在不同机架的不同node上存第三个。为了节省带宽和降低读取延时,HDFS会选取一个离客户端最近的那个数据块(三个数据块中)。

5. 安全模式(safemode):

启动时,namenode进入safemode状态。在safemode状态时,不发生数据块的复制。Namenode获取Datanode的心跳和块报告。每一个文件块有一个配置的最小的副本数。当Namenode确认每个块的副本数达到配置的数目后,离开安全模式。之后,如果有小于配置数量的块,namenode开始复制这些块。

Namenode保存2个文件,分别是EditLog和FsImage。EditLog,记录文件系统元数据改变的事务日志。整个文件系统namespace,包括数据块到文件的映射、文件系统属性存储在FsImage中。在namenode启动时,FsImage会读入内存中,按照EditLog的内容(事务日志)执行FsImage,生成一个新的FsImage。同时,将EditLog内容清空。所以,如果EditLog的内容很大的话,会影响Namenode的启动速度。

2. Secondary Namenode 

(1)Secondary Namenode

Namenode将对文件系统的修改日志保存在edits log中。当Namenode启动时,Namenode从fsimage中读取HDFS的状态,并将edits log中的日志事务应用执行在fsimage,这样会得到一个新的fsimage,并清空edits log。

因为Namenode只会在启动时做该操作。如果集群比较繁忙,edits log就会变得很大,这样在namenode启动时,就会需要大量时间来执行edits log中的事务。

Secondary Namenode定时合并edits log 到fsimage,来保证edits log在一个比较小的范围内。一般情况下,Secondary namenode与 Namenode节点在不同的机器上。

(2)常用配置项:

dfs.namenode.checkpoint.period :配置两个连续checkpoint之间的时间间隔,默认是1小时。

dfs.namenode.checkpoint.txns :配置设置强制checkpoint的最大的事务数,默认是1 million,如果上边的时间未达到,但是达到了这个设置的事务数,业务触发checkpoint(Secondary Namenode合并fsimage和edits log)。

(3)配置Secondary Namenode节点:

<property>

        <name>dfs.namenode.secondary.http-address</name>

        <value>hadoop-namenode.ipma.com:50090</value>

</property>


3. Yarn 

1. Yarn基本概念名词介绍:

在hadoop 0.x版本,mapreduce执行所有的功能,从hadoop 2.x开始,开始分出mapreduce和yarn。

JobTracker分出2个功能: 资源管理、作业调度/监控。 ResourceManager 、 ApllicationMaster.

ResourceManager:管理系统资源、任务调度;Applications管理(启动/监控ApplicationMaster);处理客户端请求;监控namenode。

ApplicationMaster : 从ResourceManager申请资源; 和Namenode一起执行和监控任务;作为job任务的管理者。

resource Container:对任务运行环境的抽象;包含内存、cpu、磁盘、网络等一系列信息;任务运行资源、任务启动命令、任务运行环境。

NodeManager:单个节点上的资源管理和任务管理、处理来自ResourceManager的命令;处理来自ApplicationMaster的命令。

2. Yarn任务运行流程:


Yarn任务执行流程


(1)resourcemanager收到客户端请求。

(2)resourcemanager会去生产一个application master,作为当前job任务的管理者。会随机的在某一个namenode上产生一个Application Master。

(3)application master再去向resource manager申请资源。

(4)resource manager响应application master的资源申请。

(5)application master分派任务给其他nodemanager(container)。

(6)nodemanager接受到任务指派以后,开始执行job任务。

(7)nodemanager执行完成以后向管理者报告。

(8)application master向resourcemanager报告。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,163评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,301评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,089评论 0 352
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,093评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,110评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,079评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,005评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,840评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,278评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,497评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,667评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,394评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,980评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,628评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,649评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,548评论 2 352

推荐阅读更多精彩内容