Hadoop简介

1. Hadoop简介


由于几乎所有的书中都会提到Hadoop的发展史, 这里就不说Hadoop的历史时间线了.

Hadoop是由Apache软件基金会开发的开源分布式计算平台, 通过Hadoop分布式文件系统和MapReduce为核心为用户提供分布式基础框架

  • HBFS是以一种分布式文件系统, 具有搞容错性的特点, 可以设计部署到低廉的硬件上, 适用于超大规模数据集的应用程序.
  • MapReduce是一种编程模型, 用于大规模数据集的并行运算, Map(映射)将输入键值对映射成一组新的键值对,Reduce(规约)对相同key下所有value进行处理后输出最终键值对

Hadoop生态包括MapReduce, HDFS, ZooKeeper, Common, Avro, Chukwa, Hive, HBase等项目

2. HDFS体系结构


HDFS采用Master/Slave结构模型, 一个HDFS集群由一个NameNode(主服务器, 管理文件系统的命名空间和客户端对文件的访问操作)和若干DataNode(管理存储的数据, 处理文件系统客户端的文件读写请求)组成

3. MapReduce编程模型


MapReduce框架是由一个单独运行在主节点的JobTracker和运行在每个集群从节点的TaskTracker共同组成, 主节点负责调度构成一个作业的所有任务, 监控任务执行情况, 从节点负责处理主节点分配的任务.


整个系统:

  • HDFS使数据分布式存储(文件在HDFS底层被分割成一个个Block, 这些Block分散地存储在不同的DataNode上, 每个Block还可以复制数据存储在不同的DataNode上来实现容错性)
  • MapReduce编程模型进行分布式并行计算
  • 对N个Block, 启动N个Map任务
  • Map任务的中间结果进行一些中间操作后, JobTracker通知Reduce到某个TaskTracker去中间结果, 获得最终结果.
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 首先,我们在使用前先看看HDFS是什麽?这将有助于我们是以后的运维使用和故障排除思路的获得。 HDFS采用mast...
    W_Bousquet阅读 4,240评论 0 2
  • (硕士读了一年多,除了论文就是论文,甚是枯燥,过些日子打算去找工作,所以借助此平台给自己一个复习的过程并把自己复习...
    黑箭阅读 600评论 0 3
  • 原文链接 1. 背景介绍 谈到分布式系统,就不得不提到Google的三驾马车:GFS[1],MapReduce[2...
    亚斯咪妮阅读 1,145评论 0 2
  • 清晨出门,心情闷闷的!看到了放生的人们,驻足观看。成群结队的鱼装在干净的口袋里,先是祈祷,每个人嘴里都振...
    绿萝悠悠阅读 123评论 2 0
  • 看到一个求平方根的算法,用Swift实现了一下。Talk is cheap. Show me the code.
    吴泉阅读 3,057评论 0 0