大数据 HDFS

分布式文件系统,Hadoop存储组件

特性

1.高容错性:认为硬件总是不可靠的(硬件一出问题,数据全没了,所以不相信硬件,这也是Hadoop精髓)
2.高吞吐量:为大量数据访问的应用提高吞吐量支持
3.大数据存储:支持存储TB-PB级别的数据
注:
HDFS适合打文件存储(基于第三点),流式数据访问(基于第二点),不适合存储大量小文件(因为不管大文件小文件在HDFS里消耗的元数据都是150字节,所以存小的就亏了)、随机写入(数据一般是拿来分析而不是更改的,写入的优先级是最低的,所以拿来写入会有高延迟)、低延迟读取(因为处理大量数据,难免会有不低的延迟)

HDFS基本架构

包括以下3个部分:

1.NameNode:用于存储、生成文件系统的元数据,负责元数据维护,运行一个实例。
2.DataNode:用于存储实际的数据,周期性将自己管理的数据块(注意是他管理的而不是所有数据)上报给NameNode,运行多个实例。
3.Client:支持业务访问HDFS,从NameNode和DataNode获取数据返回给业务,也就是提供一个接口,只有通过Client才能访问到HDFS,多个实例和业务一起运行。

HDFS高可靠性(HA)架构

在基本架构上增加了一下4个组件:
ZooKeeper

分布式协调,用来存储HA下的状态文件,主备信息(两个NameNode的状态),个数建议>3且为奇数

NameNode主备

其主备模式,主提供服务,备合并元数据并作为主的热备,两个的状态会周期上报给ZKFC,ZKFC再把自己状态信息传给ZK

ZKFC(Zookeeper Failover Controller)

用于控制NameNode节点的主备状态

JN(JournalNode)

用于共享存储NameNode生成的Editlog,主节点周期上传自己的日志信息给其,备节点周期从其上读取相关操作日志到自身,并把合并后的日志同步给主节点

HDFS数据写入流程

1.业务应用调用HDFS Client提供的API创建文件,请求写入
2.HDFS Client联系NameNode,NameNode在元数据中创建文件节点(元数据)
3.业务应用调用write API写入文件
4.HDFS Client收到业务数据后,从NameNode获取到数据块编号、位置信息后,联系DataNode,并将需要写入数据的DataNode建立起流水线。完成后,客户端再通过自有协议写入数据到DataNode1,再由DataNode1复制到DataNode2,DataNode3
5.写完的数据,将返回确认信息给HDFS Client
6.所有数据确认完成后,业务调用HDFS Client关闭文件
7.业务调用close,flush后HDFS Client联系NameNode,确认数据写完成,NameNode持久化元数据

HDFS数据读取流程

1.业务应用调用HDFS Client提供的API打开文件
2.HDFS Client联系NameNode,获取到文件信息(数据块、DataNode位置信息)
3.业务应用调用read API读取文件
4.HDFS Client根据NameNode获取到的信息,联系DataNode,获取相应的数据库(Client采用就近原则读取数据)
5.HDFS Client会与多个DataNode通讯获取数据块
6.数据读取完成后,业务调用close关闭连接

MapReduce

分布式并行处理架构,离线计算框架,是从大数据诞生开始的第一个计算引擎,是面向大数据并行处理的计算模型、框架和平台,包含三层含义:
1.是一个基于集群的高性能并行计算平台
2.是一个并行计算与运行软件框架
3.是一个并行程序设计模型与方法

Storm

实时计算框架

Spark

内存计算框架,迭代计算,基于内存的分布式处理引擎,其作用:
1.数据处理:用来快速处理数据,兼具容错性和可扩展性
2.迭代计算:支持迭代计算,有效应对多步数据处理逻辑,而且需要迭代的层数越多,其发挥的性能就越强
3.数据挖掘:在海量数据基础上进行复杂的挖掘分析,可支持各种数据挖掘和机器学习算法

Yarn

资源管理器,是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,其位置处于存储组件(HDFS)和计算引擎之间,作为一个轻量级弹性计算平台,除了MR框架,还支持Spark、Storm等框架

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,445评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,889评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,047评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,760评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,745评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,638评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,011评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,669评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,923评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,655评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,740评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,406评论 4 320
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,995评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,961评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,023评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,483评论 2 342

推荐阅读更多精彩内容