登录注册写文章

大数据入门(五)-分布式计算框架MapReduce

大数据入门(五)-分布式计算框架MapReduce

1 概述

源自于Google的MapReduce论文，发表于2004年12月。

Hadoop MapReduce是Google MapReduce的克隆版

优点

海量数量离线处理
易开发
易运行

缺点

实时流式计算

2 MapReduce编程模型

wordcount词频统计

image

MapReduce执行流程

将作业拆分成Map阶段和Reduce阶段
Map阶段: Map Tasks
Reduce阶段、: Reduce Tasks

MapReduce编程模型执行步骤

准备map处理的输入数据
Mapper处理
Shuffle
Reduce处理
结果输出

image
InputFormat

image

image

image

image

OutputFormat

OutputFormt接口决定了在哪里以及怎样持久化作业结果。Hadoop为不同类型的格式提供了一系列的类和接口，实现自定义操作只要继承其中的某个类或接口即可。你可能已经熟悉了默认的OutputFormat，也就是TextOutputFormat，它是一种以行分隔，包含制表符界定的键值对的文本文件格式。尽管如此，对多数类型的数据而言，如再常见不过的数字，文本序列化会浪费一些空间，由此带来的结果是运行时间更长且资源消耗更多。为了避免文本文件的弊端，Hadoop提供了SequenceFileOutputformat，它将对象表示成二进制形式而不再是文本文件，并将结果进行压缩。

3 核心概念

Split
InputFormat
OutputFormat
Combiner
Partitioner

image

3.1 Split

image

3.2 InputFormat

4 MapReduce 1.x 架构

image

image

image

image

image

5 MapReduce 2.x 架构

image

6 Java 实现 wordCount

image

clean package

上传到Hadoop服务器

全路径没有问题

image

7 重构

image

8 Combiner编程

image

9 Partitoner

image

image

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

大数据入门(五) - 分布式计算框架 MapReduce
1 概述 MapReduce源自Google的MapReduce论文，论文发表于2004年12月 Hadoop ...
JavaEdge阅读 737评论 1赞 2
分布式处理框架MapReduce
MapReduce概述 MapReduce源自于谷歌的论文，是谷歌MapReduce的克隆版优点：海量数据离线处...
Aimerwhy阅读 725评论 0赞 0

复习-Hadoop第6章分布式计算框架MapReduce
,MapReduce是一种可用于数据处理的编程模型 Map阶段将大量数据进行拆分，并进行并行处理，此阶段的处理阶段...
凡花花的小窝阅读 453评论 0赞 0
084-BigData-12MapReduce入门
上一篇：083-BigData-11HDFS目录结构一、MapReduce入门 1、MapReduce定义 Ma...
AncientMing阅读 484评论 0赞 1
《十小时入门大数据》学习笔记之Hadoop核心组件MapReduce
目录 MapReduce概述 MapReduce编程模型2.1 案例分析：WordCount => 词频统计2.2...
腊月的梅花阅读 870评论 0赞 8

友情链接更多精彩内容

4赞5赞

赞赏

手机看全文