Streaming简介
• MapReduce和HDFS采用Java实现,默认提供Java编程接口
• Streaming框架允许任何程序语言实现的程序在Hadoop MapReduce中使用
• Streaming方便已有程序向Hadoop平台移植
Streaming原理
Streaming优点
• 开发效率高
– 方便移植Hadoop平台,只需按照一定的格式从标准输入读取数据、向标准输出写数据就可
以
– 原有的单机程序稍加改动就可以在Hadoop平台进行分布式处理
– 容易单机调试
cat input | mapper | sort | reducer > output
• 程序运行效率高
– 对于CPU密集的计算,有些语言如C/C++编写的程序可能比用Java编写的程序效率更高一些
• 便于平台进行资源控制
– Streaming框架中通过limit等方式可以灵活地限制应用程序使用的内存等资源
Streaming局限
• Streaming默认只能处理文本数据,如果要对二进制数据进行处理,比较好的方法是将二进 制的key和value进行base64的编码转化成文本即可
• 两次数据拷贝和解析(分割),带来一定的开销
案例:
– 指定计算白名单内单词的wordcount
run.sh
$HADOOP_CMD jar $STREAM_JAR_PATH \
-input $INPUT_FILE_PATH_1 \ //指定作业的输入文件的HDFS路径,支持使用*通配 符,支持指定多个文件或目录,可多次使用
-output $OUTPUT_PATH \ //指定作业的输出文件的HDFS路径,路径必须不存在,并且具备执行作用用户有创建目录的权限,只能使用一次
-mapper "python map.py mapper_func white_list" \ //用户自己写的mapper程序
-reducer "python red.py reduer_func" \ //用户自己写的reducer程序
-jobconf "mapred.reduce.tasks=3" \ //提交作业的一些配置属性
-file ./map.py \ //打包文件到提交的作业中, (1)map和reduce的执行文件 (2)map和reduce要用输入的文件,如配置文件类似的配置还有-cacheFile, -cacheArchive分别用于 -reducer “python reducer.py” 向计算节点分发HDFS文件和HDFS压缩文件
-file ./red.py \
-file ./white_list
jobconf的常见配置
mapred.map.tasks:map task数目
mapred.reduce.tasks:reduce task数目
stream.num.map.output.key.fields 指定map task输出记录中key所占的域数目
num.key.fields.for.partition 指定对key分出来的前几部分做partition而不是整个key
mapred.job.name 作业名
mapred.job.priority 作业优先级
mapred.job.map.capacity 最多同时运行map任务数
mapred.job.reduce.capacity 最多同时运行reduce任务数
mapred.task.timeout 任务没有响应(输入输出)的最大时间
mapred.compress.map.output map的输出是否压缩
mapred.map.output.compression.codec map的输出压缩方式
mapred.output.compress map的输出是否压缩
mapred.output.compression.codec reduce的输出是否压缩
stream.map.output.field.separator reduce的输出压缩方式
实例一、文件分发与打包
• 如果程序运行所需要的可执行文件、脚本或者配置文件在Hadoop集群的计算节点上不存在,则首先需要将这些文件分发到集群上才能成功进行计算。 Hadoop提供了自动分发文件和压缩包的机制,只需要在启动Streaming作 业时配置相应的参数。
• 如果要分发的文件在本地且没有目录结构,可以使用-file /path/to/FILENAME选项 分发文件,将本地文件 /path/to/FILENAME分发到每个计算节点。
• 在Streaming程序中通过./FILENAME就可以访问该文件
• 对于本地可执行的文件,除了指定的mapper或reducer程序外,可能分发后没有可 执行权限,所以需要在包装程序如mapper.sh中运行chmod +x ./FILENAME设置 可执行权限,然后设置-mapper “mapper.sh”。
• 顺便注意下 ./mapred/local/taskTracker/root/jobcache/job_201704060437_xxxx这个目录
• 如果文件(如字典文件)存放在HDFS中,希望计算时在每个计算节点上将 文件当作本地文件处理,可以使用-cacheFile hdfs: //host:port/path /to/file#linkname选项在计算节点缓存文件, Streaming程序通过./linkname访问文件。
• 如果要分发的文件有目录结构,可以先将整个目录打包,然后上传到HDFS ,再用-cacheArchive hdfs: //host:port/path/to/ archivefile#linkname分 发压缩包。