Hadoop简介

Hadoop概述
开源分布式计算平台,以HDFS、MapReduce为核心,为用户提供了系统底层细节透明的分布式基础架构.
高容错、高伸缩
MR允许用户在不了解分布式系统底层细节的情况下开发并行应用程序,充分利用集群的计算和存储能力,完成海量数据的处理.
NameNode,元数据的管理者
DataNode
JobTracker
TaskTracker

数据分割Partition
把map任务输出的中间结果按key的范围划分成R份,划分时通常使用hash函数,这样可以保证某一范围内的key一定是由一个reduce任务来处理的,可以简化reduce的过程

数据合并Combine
在数据分割之前,还可以先对中间结果进行数据合并,即将中间结果中有相同key的<key,value>对合并成一对。Combine作为map任务的一部分,在执行完map函数后紧接着执行。Combine能够减少中间结果中<key,value>对的数据,从而降低网络流量

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 目的这篇教程从用户的角度出发,全面地介绍了Hadoop Map/Reduce框架的各个方面。先决条件请先确认Had...
    SeanC52111阅读 5,693评论 0 1
  • Hadoop简介 *Hadoop 擅长处理一次写入,多次读出的数据 hadoop两大核心组件是 HDFS 和 ma...
    卫渐行阅读 3,021评论 0 0
  • 1. Hadoop简介 由于几乎所有的书中都会提到Hadoop的发展史, 这里就不说Hadoop的历史时间线了. ...
    Andrew_liu阅读 6,187评论 1 13
  • 文/苏卿扬 3. 深夜,寂静如斯。 冯老七躺在床上,身上的被子掉落在床边,身体呈大字型,毫无品相的呼呼大睡着。 突...
    苏卿扬阅读 2,635评论 0 0
  • 第一次知道这个短语是因为看了gaga老师的一篇谈论英语学习法的文章。她讲到这个学习法的时候举了几个例子:说报名...
    黄迁迁阅读 2,444评论 0 1