Q1:
一个mr作业,输入文件有的几个G,有的几百k。设置split大小为40M。但是发现某些map运行时间特别长。定位原因。
首先排除较慢的map是因为数据分布不均匀引起的。每一个map的输入为40mb。
查看map的日志。
时间集中在Spilling map output。
查看具体的输入输出。
查看container发现map的输出很大,任务数据膨胀造成的。以至于spill map output 时间过长。
备注:
一篇基础知识介绍文章:https://my.oschina.net/u/2293326/blog/607540