Hadoop Streaming原理

Streaming简介

• MapReduce和HDFS采用Java实现，默认提供Java编程接口
• Streaming框架允许任何程序语言实现的程序在Hadoop MapReduce中使用
• Streaming方便已有程序向Hadoop平台移植

Streaming原理

Streaming优点

• 开发效率高
– 方便移植Hadoop平台，只需按照一定的格式从标准输入读取数据、向标准输出写数据就可
以
– 原有的单机程序稍加改动就可以在Hadoop平台进行分布式处理
– 容易单机调试
cat input | mapper | sort | reducer > output
• 程序运行效率高
– 对于CPU密集的计算，有些语言如C/C++编写的程序可能比用Java编写的程序效率更高一些
• 便于平台进行资源控制
– Streaming框架中通过limit等方式可以灵活地限制应用程序使用的内存等资源

Streaming局限

• Streaming默认只能处理文本数据，如果要对二进制数据进行处理，比较好的方法是将二进制的key和value进行base64的编码转化成文本即可
• 两次数据拷贝和解析(分割)，带来一定的开销

案例:

– 指定计算白名单内单词的wordcount

run.sh

$HADOOP_CMD jar $STREAM_JAR_PATH \
    -input $INPUT_FILE_PATH_1 \    //指定作业的输入文件的HDFS路径，支持使用*通配 符，支持指定多个文件或目录，可多次使用
    -output $OUTPUT_PATH \    //指定作业的输出文件的HDFS路径，路径必须不存在，并且具备执行作用用户有创建目录的权限，只能使用一次
    -mapper "python map.py mapper_func white_list" \    //用户自己写的mapper程序
    -reducer "python red.py reduer_func" \    //用户自己写的reducer程序
    -jobconf "mapred.reduce.tasks=3" \      //提交作业的一些配置属性
    -file ./map.py \    //打包文件到提交的作业中， (1)map和reduce的执行文件 (2)map和reduce要用输入的文件，如配置文件类似的配置还有-cacheFile, -cacheArchive分别用于 -reducer “python reducer.py” 向计算节点分发HDFS文件和HDFS压缩文件
    -file ./red.py \    
    -file ./white_list

jobconf的常见配置

mapred.map.tasks:map task数目
mapred.reduce.tasks:reduce task数目
stream.num.map.output.key.fields 指定map task输出记录中key所占的域数目
num.key.fields.for.partition 指定对key分出来的前几部分做partition而不是整个key
mapred.job.name 作业名
mapred.job.priority 作业优先级
mapred.job.map.capacity 最多同时运行map任务数
mapred.job.reduce.capacity 最多同时运行reduce任务数
mapred.task.timeout 任务没有响应（输入输出）的最大时间
mapred.compress.map.output map的输出是否压缩
mapred.map.output.compression.codec map的输出压缩方式
mapred.output.compress map的输出是否压缩
mapred.output.compression.codec reduce的输出是否压缩
stream.map.output.field.separator reduce的输出压缩方式

实例一、文件分发与打包

• 如果程序运行所需要的可执行文件、脚本或者配置文件在Hadoop集群的计算节点上不存在，则首先需要将这些文件分发到集群上才能成功进行计算。 Hadoop提供了自动分发文件和压缩包的机制，只需要在启动Streaming作业时配置相应的参数。
• 如果要分发的文件在本地且没有目录结构，可以使用-file /path/to/FILENAME选项分发文件，将本地文件 /path/to/FILENAME分发到每个计算节点。
• 在Streaming程序中通过./FILENAME就可以访问该文件
• 对于本地可执行的文件，除了指定的mapper或reducer程序外，可能分发后没有可执行权限，所以需要在包装程序如mapper.sh中运行chmod +x ./FILENAME设置可执行权限，然后设置-mapper “mapper.sh”。
• 顺便注意下 ./mapred/local/taskTracker/root/jobcache/job_201704060437_xxxx这个目录

• 如果文件(如字典文件)存放在HDFS中，希望计算时在每个计算节点上将文件当作本地文件处理，可以使用-cacheFile hdfs: //host:port/path /to/file#linkname选项在计算节点缓存文件， Streaming程序通过./linkname访问文件。

• 如果要分发的文件有目录结构，可以先将整个目录打包，然后上传到HDFS ，再用-cacheArchive hdfs: //host:port/path/to/ archivefile#linkname分发压缩包。