Partition作用:
哪个key到哪个Reducer的分配过程,是由Partitioner规定的。就是指定Mappr输出的键值对到哪一个reducer上去。这样保证如果有相同的key值,肯定被分配到同一个reducre上。
Combine作用:
hadoop中的combine函数,本质上是一个本地的reducer。其设计初衷是在本地将需要reduce操作的数据就行合并,以减少不必要的通信代价,combine可以提高hadoop的运行性能。
Hive和Hbase区别
Hive和Hbase是两种基于Hadoop的不同技术
Hive是一种类SQL的引擎,并且运行MapReduce任务
Hbase是一种在hdfs之上的NoSQL 的Key/vale数据库。