一句话总结:Mapreduce的原理就是一个归并排序。Hadoop是一个实现了MapReduce模式的开源的分布式并行编程框架。
Map是一个拆解数据块的过程,把数据拆成:<key1,value1>这样的函数对,然后按key的值来分配数据到各自的机器上分开运算,返回<key2,list(value2)>;
reduce就是算完之后,要返回结果,需要总结每个机器上的结果,就和归并的过程一样,输入<key2,list(value2)>,返回<key3,value3>
一句话总结:Mapreduce的原理就是一个归并排序。Hadoop是一个实现了MapReduce模式的开源的分布式并行编程框架。
Map是一个拆解数据块的过程,把数据拆成:<key1,value1>这样的函数对,然后按key的值来分配数据到各自的机器上分开运算,返回<key2,list(value2)>;
reduce就是算完之后,要返回结果,需要总结每个机器上的结果,就和归并的过程一样,输入<key2,list(value2)>,返回<key3,value3>