Spark中RDD的高效与DAG图有着莫大的关系,在DAG调度中需要对计算过程划分stage,而划分依据就是RDD之间的依赖关系
窄依赖:一个父RDD的一个分区只会对应于一个子RDD的一个分区。
下图: 父对子是一对一的算子
1> Map/Filter ;
2>对输入进行协同划分的join
宽依赖:一个父RDD的一个分区对应于一个子RDD的多个分区
下图:父对子是一对多的算子
1> groupByKey;
2>未经过协同划分的 join
Spark中RDD的高效与DAG图有着莫大的关系,在DAG调度中需要对计算过程划分stage,而划分依据就是RDD之间的依赖关系
窄依赖:一个父RDD的一个分区只会对应于一个子RDD的一个分区。
下图: 父对子是一对一的算子
1> Map/Filter ;
2>对输入进行协同划分的join
宽依赖:一个父RDD的一个分区对应于一个子RDD的多个分区
下图:父对子是一对多的算子
1> groupByKey;
2>未经过协同划分的 join