登录注册写文章

MapReduce在EMR上运行

一只小青鸟

MapReduce在EMR上运行

一 MapReduce原理

1 主程序及输入输出位置

输入：S3://yourBucketName/input/tweetData
输出：S3://yourBucketName/output/
Jar : S3://yourBucketName/jar/tweetSentiment.jar

2 输入输出格式

#输入格式示例
2015-05-13|20:24:47 @Aero_vs_Aaron some times don't be fake can get to know each other

#输出格式 
#时间段 推文数量 无效字段 正面得分 反面得分
2015-05-14|10:00 36 1   40.0 40.0
2015-05-14|9:00 29 1    33.0 37.0
totalSentiment 100 1    127.0 121.0

3 Map

Map做了以下工作：

对于每一行输入，确定推文的时间段并对推文内容进行预处理
对单个推文计算正面分数和反面分数
输出正面分数和反面分数 key为时间段

4 Reduce

Reduce做了以下工作：

计算正面分数之和和反面分数之和
输出

二集群开启

设置1：主要是设置终止保护和日志位置；

Config-1

设置2：设置Hadoop版本，这里是AMAZON的2.2.0

Config-2

设置3：设置EC2实例数量和配置，设置EC2访问键值对，设置IAM角色

Config-3

设置4：添加新步骤，各种类型Map/Reduce任务，不过无需这里添加

Config-4

集群开启成功

cluster create success

三 MapReduce在EMR上执行

只要执行MapRManager.runJob()方法即可

这里的集群ID需要复制到MapRManager.java中JobFlowID参数中

Copy cluster ID

Running

步骤执行完毕一段时间会在S3中产生四个日志文件，方便进行调试

Steps

Jobs

Tasks

Logs-SysLog

最后编辑于：2017.11.27 02:37:52

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

第2章:MapReduce
MapReduce是一个数据处理的编程模型。这个模型很简单，但也不是简单到不能够支持一些有用的语言。Hadoop能...
单行线的旋律阅读 1,635评论 0赞 2
Spring Cloud
Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具（例如配置管理，服务发现，断路器，智...
卡卡罗2017阅读 136,790评论 19赞 139

2016-01-23 Hadoop the Definitive 4th
摘自：http://staticor.io/post/hadoop/2016-01-23hadoop-defini...
wangliang938阅读 705评论 0赞 1
MapReduce/Yarn详解
MapReduce框架结构## MapReduce是一个用于大规模数据处理的分布式计算模型MapReduce模型主...
Bloo_m阅读 3,959评论 0赞 4
十八岁那年
十八岁的我们在做什么？十八岁的我们的生活的怎么样？十八岁的我们拥有怎样的人生？十八岁时，有的人在备战高考；有...
你若未央阅读 530评论 6赞 14

友情链接更多精彩内容

1赞2赞

赞赏

手机看全文