Hadoop 简介

1. 定义


狭义上讲,Hadoop 是一个分布式的 数据存储与数据计算 框架,主要包括:

广义上 Hadoop 指的是 Hadoop 生态圈,主要包括(但不限于)以下技术栈:

  • Hadoop 分布式数据存储计算框架
  • Hive 数据仓库工具
  • HBase 海量列式非关系型数据库
  • Flume 数据采集工具
  • Sqoop ETL 工具
  • Kafka 高吞吐消息中间件


2. 起源


创造者:道 • 卡丁(Doug Cutting)
参考了Google的三篇论文:

  • GFS:Google的分布式文件系统(Google File System)
  • MapReduce:Google的分布式计算框架
  • BigTable:大型分布式数据库

演变关系:

  • GFS --> HDFS
  • MapReduce --> MapReduce
  • BigTable --> HBase


3. 发行版本


市面上常见的 Hadoop 发行版有以下 3 种:

  1. Apache Hadoop
    下载地址:http://hadoop.apache.org/
    原生版本 -- 适合用于学习
    优点:开源贡献者多、更新快、参考资料多(适用于学习)
    缺点:版本管理比较混乱,版本之间兼容性差
  2. CDH (Cloudera's Distribution including Apache Hadoop)
    官网地址:https://www.cloudera.com/
    收费版本 -- 适合生产环境中使用
    优点:生态圈内各框架版本标准化,解决了版本兼容性问题
  3. HDP (Hortonworks Data Platform)
    官网地址:https://hortonworks.com/
    开源版本 -- 但不常用
    优点:开源 + web 管理界面
Apache Hadoop 主要版本
  • 0.x 系列版本:Hadoop当中最早的⼀个开源版本,在此基础上演变⽽来的1.x以及2.x的版本
  • 1.x 版本系列:Hadoop版本当中的第⼆代开源版本,主要修复0.x版本的⼀些bug等
  • 2.x 版本系列:架构产⽣重⼤变化,引⼊了yarn平台等许多新特性
  • 3.x 版本系列:EC技术、YARN的时间轴服务等新特性


4. Hadoop 优缺点


优点:
  • 高可用
      • 数据存储 --> 高可靠的数据存储机制(HDFS 副本机制)
      • 数据计算 --> 高容错的任务分配机制(Yarn 调度机制)
  • 高扩展性
      分布式框架的共性优势
  • 高效性
      这里主要是指 Hadoop 框架具有极强的 数据处理能力
      数据处理能力主要是指在集群各节点间移动数据、使各节点保持动态平衡的能力
缺点:
  • 不支持 低延迟数据访问 -- 计算速度较慢,不能快速地返回数据
  • 不擅长 存储大量小文件 -- 大量小文件浪费内存资源
  • 不支持 文件的任意修改 -- 支持追加写入


上一篇:大数据学习笔记目录

下一篇:Apache Hadoop

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容