2019-03-26 基本概念

MapReduce是一种基于java的分布式计算的处理技术和程序模型.

MapReduce是一个框架,我们可以使用它来编写应用程序,以可靠的方式并行地处理大量商品硬件群集上的大量数据。

MapReduce的主要优点是易于在多个计算节点上扩展数据处理。在MapReduce模型下,数据处理原语称为映射器和缩减器。将数据处理应用程序分解为映射器和简化器有时并不重要。但是,一旦我们以MapReduce形式编写应用程序,扩展应用程序以在集群中运行数百,数千甚至数万台机器只是一种配置更改。这种简单的可扩展性是吸引许多程序员使用MapReduce模型的原因。

键和值类应该由框架以序列化的方式,因此,需要实现Writable接口。此外,键类必须实现Writable-Comparable接口,以方便框架进行排序。

术语

PayLoad - 应用程序实现Map和Reduce功能,并形成作业的核心。

Mapper- 映射器将输入键/值对映射到一组中间键/值对。

NamedNode - 管理Hadoop分布式文件系统(HDFS)的节点。

DataNode - 在任何处理发生之前提前呈现数据的节点。

MasterNode - JobTracker运行并接受来自客户端的作业请求的节​​点。

SlaveNode - Map和Reduce程序运行的节点。

JobTracker - 计划作业并跟踪将作业分配给任务跟踪器。

Task Tracker- 跟踪任务并向JobTracker报告状态。

Job- 程序是跨数据集的Mapper和Reducer的执行。

Task- 在一个数据片段上执行Mapper或Reducer。

Task Attempt- 尝试在SlaveNode上执行任务的特定实例。

https://www.w3cschool.cn/hadoop/hadoop_mapreduce.html

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 【什么是大数据、大数据技术】 大数据,又称巨量资料,指的是所涉及的数据资料量规模巨大到无法在合理时间内通过传统的应...
    kimibob阅读 7,713评论 0 51
  • Zookeeper用于集群主备切换。 YARN让集群具备更好的扩展性。 Spark没有存储能力。 Spark的Ma...
    Yobhel阅读 12,099评论 0 34
  • 一.简述如何安装配置apache 的一个开源的hadoop 1.使用root账户登陆 2.修改ip 3.修改hos...
    栀子花_ef39阅读 10,393评论 0 52
  • 如果我很富有 我会去买通上帝 让他把春天卖给我 如果上帝同意的话 我就会把这春天 连同所有的花儿、树 和温暖的阳光...
    想和你互相浪费阅读 1,664评论 3 4
  • 有一种温暖叫感恩。只要人人献出一点爱,这个世界将变成美好的世界。一句简单的歌词,却说出了一个大道理。在这个冷漠的世...
    伊水_阅读 1,339评论 0 0