Hadoop Streaming原理

Streaming简介

• MapReduce和HDFS采用Java实现,默认提供Java编程接口
• Streaming框架允许任何程序语言实现的程序在Hadoop MapReduce中使用
• Streaming方便已有程序向Hadoop平台移植

Streaming原理
Streaming优点

• 开发效率高
– 方便移植Hadoop平台,只需按照一定的格式从标准输入读取数据、向标准输出写数据就可

– 原有的单机程序稍加改动就可以在Hadoop平台进行分布式处理
– 容易单机调试
cat input | mapper | sort | reducer > output
• 程序运行效率高
– 对于CPU密集的计算,有些语言如C/C++编写的程序可能比用Java编写的程序效率更高一些
• 便于平台进行资源控制
– Streaming框架中通过limit等方式可以灵活地限制应用程序使用的内存等资源

Streaming局限

• Streaming默认只能处理文本数据,如果要对二进制数据进行处理,比较好的方法是将二进 制的key和value进行base64的编码转化成文本即可
• 两次数据拷贝和解析(分割),带来一定的开销

案例:

– 指定计算白名单内单词的wordcount

run.sh
$HADOOP_CMD jar $STREAM_JAR_PATH \
    -input $INPUT_FILE_PATH_1 \    //指定作业的输入文件的HDFS路径,支持使用*通配 符,支持指定多个文件或目录,可多次使用
    -output $OUTPUT_PATH \    //指定作业的输出文件的HDFS路径,路径必须不存在,并且具备执行作用用户有创建目录的权限,只能使用一次
    -mapper "python map.py mapper_func white_list" \    //用户自己写的mapper程序
    -reducer "python red.py reduer_func" \    //用户自己写的reducer程序
    -jobconf "mapred.reduce.tasks=3" \      //提交作业的一些配置属性
    -file ./map.py \    //打包文件到提交的作业中, (1)map和reduce的执行文件 (2)map和reduce要用输入的文件,如配置文件类似的配置还有-cacheFile, -cacheArchive分别用于 -reducer “python reducer.py” 向计算节点分发HDFS文件和HDFS压缩文件
    -file ./red.py \    
    -file ./white_list    
jobconf的常见配置

mapred.map.tasks:map task数目
mapred.reduce.tasks:reduce task数目
stream.num.map.output.key.fields 指定map task输出记录中key所占的域数目
num.key.fields.for.partition 指定对key分出来的前几部分做partition而不是整个key
mapred.job.name 作业名
mapred.job.priority 作业优先级
mapred.job.map.capacity 最多同时运行map任务数
mapred.job.reduce.capacity 最多同时运行reduce任务数
mapred.task.timeout 任务没有响应(输入输出)的最大时间
mapred.compress.map.output map的输出是否压缩
mapred.map.output.compression.codec map的输出压缩方式
mapred.output.compress map的输出是否压缩
mapred.output.compression.codec reduce的输出是否压缩
stream.map.output.field.separator reduce的输出压缩方式

实例一、文件分发与打包

• 如果程序运行所需要的可执行文件、脚本或者配置文件在Hadoop集群的计算节点上不存在,则首先需要将这些文件分发到集群上才能成功进行计算。 Hadoop提供了自动分发文件和压缩包的机制,只需要在启动Streaming作 业时配置相应的参数。
• 如果要分发的文件在本地且没有目录结构,可以使用-file /path/to/FILENAME选项 分发文件,将本地文件 /path/to/FILENAME分发到每个计算节点。
• 在Streaming程序中通过./FILENAME就可以访问该文件
• 对于本地可执行的文件,除了指定的mapper或reducer程序外,可能分发后没有可 执行权限,所以需要在包装程序如mapper.sh中运行chmod +x ./FILENAME设置 可执行权限,然后设置-mapper “mapper.sh”。
• 顺便注意下 ./mapred/local/taskTracker/root/jobcache/job_201704060437_xxxx这个目录

• 如果文件(如字典文件)存放在HDFS中,希望计算时在每个计算节点上将 文件当作本地文件处理,可以使用-cacheFile hdfs: //host:port/path /to/file#linkname选项在计算节点缓存文件, Streaming程序通过./linkname访问文件。

• 如果要分发的文件有目录结构,可以先将整个目录打包,然后上传到HDFS ,再用-cacheArchive hdfs: //host:port/path/to/ archivefile#linkname分 发压缩包。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,137评论 6 511
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,824评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,465评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,131评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,140评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,895评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,535评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,435评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,952评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,081评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,210评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,896评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,552评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,089评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,198评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,531评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,209评论 2 357

推荐阅读更多精彩内容