开个错误集锦贴,来记录代码中的错误,不论大小,提个醒:
1、run.sh 内容,要记得最后都有个反斜线
$HADOOP_CMD jar $STREAM_JAR_PATH \
-input $INPUT_FILE_PATH_1 \
-output $OUTPUT_PATH \
#这个后边的参数都有双引号
-mapper "python map.py mapper_func WH.gz" \
-reducer "python red.py reducer_func" \
-jobconf "mapred.job.name=map_output_compress_demo" \
#是mapred.reduce.tasks 不是red、reducer、task、
-jobconf "mapred.reduce.tasks=2" \
#是mapred.compress.map.output
-jobconf "mapred.compress.map.output=true" \
#只有这个等号前边是compression
-jobconf "mapred.map.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec" \
#是mapred.output.compress
-jobconf "mapred.output.compress=true" \
-jobconf "mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec" \
-file "./map.py" \
-file "./red.py"
2、map和red函数,要理解思想,按思想敲,而不是背代码,切记:背代码不是最终结果