MapReduce在EMR上运行

一 MapReduce原理

1 主程序及输入输出位置

2 输入输出格式

#输入格式示例
2015-05-13|20:24:47 @Aero_vs_Aaron some times don't be fake can get to know each other

#输出格式 
#时间段 推文数量 无效字段 正面得分 反面得分
2015-05-14|10:00 36 1   40.0 40.0
2015-05-14|9:00 29 1    33.0 37.0
totalSentiment 100 1    127.0 121.0

3 Map

Map做了以下工作:

  • 对于每一行输入,确定推文的时间段并对推文内容进行预处理
  • 对单个推文计算正面分数和反面分数
  • 输出正面分数和反面分数 key为时间段

4 Reduce

Reduce做了以下工作:

  • 计算正面分数之和和反面分数之和
  • 输出

二 集群开启

设置1:主要是设置终止保护和日志位置;

Config-1

设置2:设置Hadoop版本,这里是AMAZON的2.2.0

Config-2

设置3:设置EC2实例数量和配置,设置EC2访问键值对,设置IAM角色

Config-3

设置4:添加新步骤,各种类型Map/Reduce任务,不过无需这里添加

Config-4

集群开启成功

cluster create success

三 MapReduce在EMR上执行

只要执行MapRManager.runJob()方法即可

这里的集群ID需要复制到MapRManager.java中JobFlowID参数中

Copy cluster ID
Running

步骤执行完毕一段时间会在S3中产生四个日志文件,方便进行调试

Steps
Jobs
Tasks
Logs-SysLog
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • MapReduce是一个数据处理的编程模型。这个模型很简单,但也不是简单到不能够支持一些有用的语言。Hadoop能...
    单行线的旋律阅读 1,543评论 0 2
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,155评论 19 139
  • 摘自:http://staticor.io/post/hadoop/2016-01-23hadoop-defini...
    wangliang938阅读 616评论 0 1
  • MapReduce框架结构## MapReduce是一个用于大规模数据处理的分布式计算模型MapReduce模型主...
    Bloo_m阅读 3,841评论 0 4
  • 十八岁的我们在做什么? 十八岁的我们的生活的怎么样? 十八岁的我们拥有怎样的人生? 十八岁时,有的人在备战高考;有...
    你若未央阅读 447评论 6 14