大数据 HDFS

分布式文件系统，Hadoop存储组件

特性

1.高容错性：认为硬件总是不可靠的（硬件一出问题，数据全没了，所以不相信硬件，这也是Hadoop精髓）
2.高吞吐量：为大量数据访问的应用提高吞吐量支持
3.大数据存储：支持存储TB-PB级别的数据
注：
HDFS适合打文件存储（基于第三点），流式数据访问（基于第二点），不适合存储大量小文件（因为不管大文件小文件在HDFS里消耗的元数据都是150字节，所以存小的就亏了）、随机写入（数据一般是拿来分析而不是更改的，写入的优先级是最低的，所以拿来写入会有高延迟）、低延迟读取（因为处理大量数据，难免会有不低的延迟）

HDFS基本架构

包括以下3个部分：

1.NameNode：用于存储、生成文件系统的元数据，负责元数据维护，运行一个实例。
2.DataNode：用于存储实际的数据，周期性将自己管理的数据块（注意是他管理的而不是所有数据）上报给NameNode，运行多个实例。
3.Client：支持业务访问HDFS，从NameNode和DataNode获取数据返回给业务，也就是提供一个接口，只有通过Client才能访问到HDFS，多个实例和业务一起运行。

HDFS高可靠性(HA)架构

在基本架构上增加了一下4个组件：

ZooKeeper

分布式协调，用来存储HA下的状态文件，主备信息（两个NameNode的状态），个数建议>3且为奇数

NameNode主备

其主备模式，主提供服务，备合并元数据并作为主的热备，两个的状态会周期上报给ZKFC，ZKFC再把自己状态信息传给ZK

ZKFC(Zookeeper Failover Controller)

用于控制NameNode节点的主备状态

JN(JournalNode)

用于共享存储NameNode生成的Editlog，主节点周期上传自己的日志信息给其，备节点周期从其上读取相关操作日志到自身，并把合并后的日志同步给主节点

HDFS数据写入流程

1.业务应用调用HDFS Client提供的API创建文件，请求写入
2.HDFS Client联系NameNode，NameNode在元数据中创建文件节点（元数据）
3.业务应用调用write API写入文件
4.HDFS Client收到业务数据后，从NameNode获取到数据块编号、位置信息后，联系DataNode，并将需要写入数据的DataNode建立起流水线。完成后，客户端再通过自有协议写入数据到DataNode1，再由DataNode1复制到DataNode2，DataNode3
5.写完的数据，将返回确认信息给HDFS Client
6.所有数据确认完成后，业务调用HDFS Client关闭文件
7.业务调用close，flush后HDFS Client联系NameNode，确认数据写完成，NameNode持久化元数据

HDFS数据读取流程

1.业务应用调用HDFS Client提供的API打开文件
2.HDFS Client联系NameNode，获取到文件信息（数据块、DataNode位置信息）
3.业务应用调用read API读取文件
4.HDFS Client根据NameNode获取到的信息，联系DataNode，获取相应的数据库（Client采用就近原则读取数据）
5.HDFS Client会与多个DataNode通讯获取数据块
6.数据读取完成后，业务调用close关闭连接

MapReduce

分布式并行处理架构，离线计算框架，是从大数据诞生开始的第一个计算引擎，是面向大数据并行处理的计算模型、框架和平台，包含三层含义：
1.是一个基于集群的高性能并行计算平台
2.是一个并行计算与运行软件框架
3.是一个并行程序设计模型与方法

Storm

实时计算框架

Spark

内存计算框架，迭代计算，基于内存的分布式处理引擎，其作用：
1.数据处理：用来快速处理数据，兼具容错性和可扩展性
2.迭代计算：支持迭代计算，有效应对多步数据处理逻辑，而且需要迭代的层数越多，其发挥的性能就越强
3.数据挖掘：在海量数据基础上进行复杂的挖掘分析，可支持各种数据挖掘和机器学习算法

Yarn

资源管理器，是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，其位置处于存储组件（HDFS）和计算引擎之间，作为一个轻量级弹性计算平台，除了MR框架，还支持Spark、Storm等框架

最后编辑于：2018.09.16 23:59:41

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,039评论 6赞 498
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,223评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 161,916评论 0赞 351
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,009评论 1赞 291
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,030评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,011评论 1赞 295
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,934评论 3赞 416
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,754评论 0赞 271
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,202评论 1赞 309
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,433评论 2赞 331
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,590评论 1赞 346
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,321评论 5赞 342
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,917评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,568评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,738评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,583评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,482评论 2赞 352