关于MapReduce的三大阶段、八大步骤

mapreduce的三大阶段:

map阶段:并行处理的阶段
shuffle阶段:从离开Mapper开启到进入Reduce之前的阶段
reduce阶段:汇总整理的阶段
mapreduce的八大步骤

设置MapReduce的输入InputFormat类型,默认为TextInputFormat
自定义map函数,得到TextInputFormat的k1,v1;经过处理后传出k2,v2
分区--默认根据k2决定map中的数据该发送到哪个reduce中
排序--默认根据k2进行字典排序
规约--默认没有此阶段,是优化手段,可以提前合并
分组--相同k2的value会放到同一个集合中
自定义reduce函数,讲分组得到的k2,v2转成k3,v3输出
设置输出的OutputFormat,默认采用TextOutputFormat,将结果输出到一个纯文本文件中
————————————————
版权声明:本文为CSDN博主「东城庞太师」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/u011110301/article/details/104116052

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容