【Hadoop】Hadoop 体系及核心组件简介

1.Hadoop 体系

1.1 Google 大数据三大理论

1.1.1 Google FS

GFS 是一个可扩展的分布式文件系统,把原文件分割成很多块的小文件,以冗余的方式保存在不同节点上。在 GFS 下每个原文件都被分割成固定大小的 chunk。GFS 由一个 master 和大量的 chunk server 组成。为了简化处理流程和提高系统性能,通过 master 来保存目录和索引信息,从而产生了单点故障。为了解决单点故障,允许一个 GFS 集群中有多个master。为了保证信息的可靠性,每个文件都会以 chunk 的方式备份在不同的 chunk server。

1.1.2 MapReduce

MapReduce 是一种并行编程模型,其核心思想是“分而治之”,将一个大规模的数据集切分成很多小的单独的数据集,然后放在多个机器上同时处理。

1.1.3 BigTable

Bigtable 是一种压缩的、高性能的、高可扩展性的,基于 GFS 文件系统的数据存储系统,用于存储大规模结构化数据。Bigtable 是一个稀疏、分布式、持久化存储的多维有序映射表,其特点如下:

  • Persistent:一个表是一个包含海量 Key-Value 键值对的 Map,数据是持久化存储的;
  • Distributed:这个大的 Map 需要支持多个分区来实现分布式;
  • Multidimensional Sorted Map:这个 Map 按照 Row Key 进行排序,这个 Key 是一个由 {Row Key, Column Key, Timestamp} 组成的多维结构;
  • Sparse:每一行列的组成并不是严格的结构,而是稀疏的,也就是说,行与行可以由不同的列组成:
Row Columns

BigTable 的数据模型具体来说就是:Bigtable 的每一个键值对的 Key 都为 Row key + Column key + Timestamp 的结构,Value 则是字符串:(row:string, column:string,time:int64) -> string

举一个具体的例子:比如,一个存储了大量网页及其相关信息的表 Webtable,Webtable 使用 URL 作为行名,使用网页的某些属性作为列名,网页的内容存入 contents 列中,并使用获取该网页的时间戳标识同一个网页的不同版本。在 Bigtable 中,Webtable 的存储范例如下图所示:


image.png

1.2 Hadoop 体系

Hadoop 的起源与 Google 大数据三大理论息息相关。HDFS 是基于 GFS 分布式文件系统实现的,MapReduce、Spark 的核心是 MapReduce 并行编程模型,而 HBase 也是基于 BigTable 实现的。

Hadoop 有以下 4 个基本模块:

  • Hadoop 基本功能库:支持其它 Hadoop 模块的通用程序包,
  • HDFS:一个分布式文件系统,能够以高吞吐量访问应用的数据。
  • YARN:一个作业调度和资源管理框架。
  • MapReduce:一个基于 YARN 的大数据并行处理程序。
image.png

2.Hadoop 核心组件

2.1 HDFS

HDFS 是基于 GPS 设计思路来实现的,把原文件分割成很多块的小文件,以冗余的方式保存在不同节点上。HDFS 的 NameNode 负责记录具体数据的元数据信息,而 DataNode 是真正的数据节点,其中 Secondary NameNode 主要作用是分担主 NameNode 的一部分工作负载。NameNode 和 DataNode之间维持着心跳。如果 DataNode 不可用,会启用副本复制。

image.png

2.2 Hbase

HBase 的核心思想是 BigTable,基于列式存储的分布式数据库。利用 HDFS 作为其文件存储系统,底层采用 LSM Tree 数据结构进行存储,因此写入性能很强,读取性能较差。

image.png

2.3 Yarn

Yarn 采用 Master/Slaver 架构,其中 ResourceManager 为 Master,NodeManager 为 Slaver,RM 负责对各个NM上的资源进行统一管理和调度。

image.png

2.4 MapReduce

MapReduce 的核心思想是“分而治之”,采用 Master/slave 结构,按照编程规范编写少量的业务逻辑代码即可实现一个强大的海量数据并发处理程序。MapReduce 把一个复杂的业务,任务分成若干个简单的任务分发到网络上的每个节点并行执行,把 Map 阶段的结果由 Reduce 进行汇总,最终大大缩短了数据处理的时间开销。

image.png
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,997评论 6 502
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,603评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,359评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,309评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,346评论 6 390
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,258评论 1 300
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,122评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,970评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,403评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,596评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,769评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,464评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,075评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,705评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,848评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,831评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,678评论 2 354

推荐阅读更多精彩内容