应用场景:
1 计数和统计
2 整理
3 过滤
4 排序
1、Hadoop安装
2、映射器(Mapper)
映射器的任务是将输入转换成一系列的键值对。比如在字计数器的情况下,输入是一系列的行。我们按单词将它们分开,把它们变成键值对(如key:word,value:1),看起来像这样:
the 1
water 1
on 1
on 1
water 1
on 1
... 1
3、reducer
reducer的任务是检索(排序)对,迭代并转换为所需输出。 在单词计数器的例子中,取单词数(值),并将它们相加得到一个单词(键)及其最终计数。如下:
water 2
the 1
on 3
4、基于单词计数器的理解:
hadoop jar /usr/hadoop/2.5.1/libexec/lib/hadoop-streaming-2.5.1.jar \
-mapper "./mapper.php"//将数据处理成键值对
-reducer "./reducer.php"//将键值对归类
-input "hello/mobydick.txt"//将数据写入文件
-output "hello/result"//输出统计结果写入文件