一.reduceByKey的含义
reduceByKey会将上一个RDD中的每一个key对应的所有value聚合成一个value,然后生成一个新的RDD,元素类型是<key,value>的形式,这样每一个key对应一个聚合起来的value。
但是每一个key对应的value不一定都是在一个partition中,也很难在同一个节点上,因为RDD是分布式的弹性数据集,他的partition非常可能分布在各个节点上。所以spark中一定有shuffle。
二.所有的shuffle都分为shuffle Write 和shuffle Read
shuffle Write :上一个stage的每一个map task就必须保证将自己处理的当前分区中的数据相同的key写入一个分区文件中,可能会写入多个不同的分区文件中
shuffle Read:reduce task就会从上一个stage的所有task所在的机器上寻找属于自己的那些分区文件,这样就可以保证每一个key所对应的value都会汇聚到同一个节点上去处理和聚合。
三.spark中有两种shuffle
1.Hash shuffle 在shuffle过程周不会排序
2.Sort shuffle 在shuffle过程中会排序
而mapReduce中的shuffle中 强制排序 这回导致处理效率很低
四.讲解Hash shuffle
(1)普通Hash Shuffle
磁盘小文件的个数:m*r
m:mapTask的个数
r:reduceTask的个数
这样会产生很多的磁盘小文件,小文件过多,降低IO速度。
会产生OOM,读写文件以及缓存过多。
(2)优化后的HashShuffle
task2会复用task1创建的磁盘小文件
这样磁盘小文件的个数和和每一个Executer的核数有关系,和mapTask的个数没有关系。
最终磁盘小文件的个数是c*r
五.Sort Shuffle
SortShuffle运行机制分为两种
1.普通运行机制
2.bypass运行机制
(1)普通运行机制
上面的task就是mapTask
最下方的task是reduceTask
mapTask处理的结果放在内存缓冲里,如果使用的算子是reduceByKey那么内存缓冲的数据结构是Map,如果使用的算子是join算子,那么内存数据的数据结构是Array。
内存数据最大5M,如果写入的数据多于5M就会继续申请内存资源,申请资源的大小是多出来内存容量的两倍(例如,内存数据是6M那么就会申请12M内存),如果没有12M的内存资源,那么就会发生溢写,在溢写之前会发生排序,然后将数据发送到内存缓冲(32k大小)中,然后写入磁盘文件,最后合并成一个磁盘小文件。
reduceTask会拉取磁盘大文件,拉取数据的依据是索引文件,索引文件中会记录磁盘大文件中的信息。
reduceTask并不会影响磁盘小文件的个数,每一个mapTask会产生两个磁盘小文件(磁盘文件和索引文件)
那么在SortShuffle普通运行机制中只有MapTask的个数影响磁盘小文件的个数。
(2)bypass运行机制
bypass运行机制产生磁盘小文件的个数也是mapTask个数的两倍
总结
Spark中shuffle分为
1.hashShuffle
(1)普通机制 磁盘小文件的个数mapTaskreduceTask
(2)合并机制 磁盘小文件个数corereduceTask(磁盘小文件较少)
2.sortShuffle
(1)普通机制 磁盘小文件的个数map2
(2)byPass机制 磁盘小文件个数map2
两者区别:普通机制在shuffle阶段有排序,byPass机制在shuffle阶段无排序
使用sortShuffle会大大减少磁盘小文件的个数,从而大大提高shuffle执行效率,提高shuffle性能
在处理数据量不大的时候,使用hashShuffle执行效率高,因为在reduceTask拉取数据时候,hashShuffle直接拉取磁盘小文件中的数据,而sortShuffle会先读取索引文件获得磁盘小文件信息的位置。