hadoop Streaming 使用初探

hadoop 对于现在的大数据来说 ,大家 更多是使用它的 hdfs ,真到 计算 ,还是 对已经对原始日志清洗后的更好的结构化数据 使用hive impala kudu kylin Druid spark ,结构化 数据 可以媲美 关系型数据库 中的数据了。

hadoop Streaming 是一个非常优秀的小工具,短小精悍 非常锋利,
hadoop Streaming 需要借助 我们 hadoop 根目录下 ./share子目录下的 hadoop-streaming -**.jar包 才能执行,这个是 其路径 hadoop/share/hadoop/tools/lib/hadoop-streaming-2.8.1.jar
一般我建议把 这个jar 包放到 PATH可以引导的地方
所以 cd /usr/local/hadoop/share/hadoop/tools/lib
cp hadoop-streaming-2.8.1.jar ../../../../../bin/
这样在hadoop 的bin 目录就有了这个jar 包,方便引用

另外就是 hadoop 1.X 的hadoop streaming 的运行配置参数和 2.X 还是有区别的,需要 纠正,我们老大在百度 ,百度 的hadoop 大部分是 1.x ,配置参数使用 -jobconf
但是在 2.x 大部分使用 -D
参考这份官方
http://hadoop.apache.org/docs/r2.6.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/HadoopStreaming.html

切记 ,-D 必须放在其他 非D 配置参数 最前面,不然 -D 会报无法识别

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 摘自:http://staticor.io/post/hadoop/2016-01-23hadoop-defini...
    wangliang938阅读 607评论 0 1
  • 首先,我们在使用前先看看HDFS是什麽?这将有助于我们是以后的运维使用和故障排除思路的获得。 HDFS采用mast...
    W_Bousquet阅读 4,229评论 0 2
  • hadoop是什么?HDFS与MapReduceHive:数据仓库,在HDFS之上,后台执行,帮你执行。faceb...
    Babus阅读 2,418评论 0 5
  • 看到题目有没有一种高大上的感觉?毛线,当前是个人、是个公司都在说自己搞大数据,每天没有几个PB的数据入库,每天没有...
    丁小晶的晶小丁阅读 4,528评论 0 50
  • 前言 近几年,大数据,云计算,机器学习成为了非常热门的话题,这些技术运用在了很多的领域,也是在未来很有发展前景的技...
    Kevin_ZGJ阅读 913评论 0 5