登录注册写文章

Hadoop 简介

珺王不早朝

Hadoop 简介

1. 定义

狭义上讲，Hadoop 是一个分布式的数据存储与数据计算框架，主要包括：

HDFS（Hadoop Distribute File System）
MapReduce
Yarn

广义上 Hadoop 指的是 Hadoop 生态圈，主要包括（但不限于）以下技术栈：

Hadoop 分布式数据存储计算框架
Hive 数据仓库工具
HBase 海量列式非关系型数据库
Flume 数据采集工具
Sqoop ETL 工具
Kafka 高吞吐消息中间件

2. 起源

创造者：道 • 卡丁（Doug Cutting）
参考了Google的三篇论文：

GFS：Google的分布式文件系统（Google File System）
MapReduce：Google的分布式计算框架
BigTable：大型分布式数据库

演变关系：

GFS --> HDFS
MapReduce --> MapReduce
BigTable --> HBase

3. 发行版本

市面上常见的 Hadoop 发行版有以下 3 种：

Apache Hadoop
下载地址：http://hadoop.apache.org/
原生版本 -- 适合用于学习
优点：开源贡献者多、更新快、参考资料多（适用于学习）
缺点：版本管理比较混乱，版本之间兼容性差
CDH (Cloudera's Distribution including Apache Hadoop)
官网地址：https://www.cloudera.com/
收费版本 -- 适合生产环境中使用
优点：生态圈内各框架版本标准化，解决了版本兼容性问题
HDP (Hortonworks Data Platform)
官网地址：https://hortonworks.com/
开源版本 -- 但不常用
优点：开源 + web 管理界面

Apache Hadoop 主要版本

0.x 系列版本：Hadoop当中最早的⼀个开源版本，在此基础上演变⽽来的1.x以及2.x的版本
1.x 版本系列：Hadoop版本当中的第⼆代开源版本，主要修复0.x版本的⼀些bug等
2.x 版本系列：架构产⽣重⼤变化，引⼊了yarn平台等许多新特性
3.x 版本系列：EC技术、YARN的时间轴服务等新特性

4. Hadoop 优缺点

优点：

高可用
• 数据存储 --> 高可靠的数据存储机制（HDFS 副本机制）
• 数据计算 --> 高容错的任务分配机制（Yarn 调度机制）
高扩展性
分布式框架的共性优势
高效性
这里主要是指 Hadoop 框架具有极强的 数据处理能力
数据处理能力主要是指在集群各节点间移动数据、使各节点保持动态平衡的能力

缺点：

不支持 低延迟数据访问 -- 计算速度较慢，不能快速地返回数据
不擅长 存储大量小文件 -- 大量小文件浪费内存资源
不支持 文件的任意修改 -- 支持追加写入

上一篇：大数据学习笔记目录

下一篇：Apache Hadoop

最后编辑于：2021.04.21 17:50:43

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Hadoop入门|Hadoop简介及安装
一、大数据简介 1. 大数据的定义⼤数据是指⽆法在⼀定时间范围内⽤常规软件⼯具进⾏捕捉、管理和处理的数据集合，...
大数据学习宝典阅读 2,875评论 0赞 3
Hadoop系列－Hadoop简介与运行环境搭建
hadoop简介 hadoop主要是解决海量数据的存储和海量数据的分析计算问题，狭义上来说，hadoop最擅长做海...
gengqing阅读 2,900评论 0赞 1

Hadoop简介
Hadoop概述 Hadoop是一个适合海量数据存储的分布式存储和分布式计算的平台。 Hadoop Modules...
coderLumia阅读 3,544评论 0赞 0
2018-7-18，晚上，7:00-8:30，注音标3-1-3，口语滚动复习。
xin_8008阅读 10,104评论 1赞 2
有效教学（摘记八）——崔允漷
第八章教学评价第一节从考试文化走向评价文化一、教学评价的早期发展（一）传统考试阶段 ★《学记》——我国最...
Dreamerr__阅读 10,775评论 1赞 6

赞1赞

赞赏

手机看全文