RDD依赖关系

Spark中RDD的高效与DAG图有着莫大的关系，在DAG调度中需要对计算过程划分stage，而划分依据就是RDD之间的依赖关系

窄依赖：一个父RDD的一个分区只会对应于一个子RDD的一个分区。

下图：父对子是一对一的算子

1> Map／Filter ;

2>对输入进行协同划分的join

宽依赖：一个父RDD的一个分区对应于一个子RDD的多个分区

下图：父对子是一对多的算子

1> groupByKey;

2>未经过协同划分的 join

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

Spark入门教程（七）RDD的惰性求值、持久化及RDD依赖关系（宽依赖、窄依赖）
本文全部手写原创，请勿复制粘贴、转载请注明出处，谢谢配合！本节是对前面所讲的 Transformation和Ac...
胖滚猪学编程阅读 9,340评论 1赞 2
RDD:基于内存集群计算的容错抽象
该论文来自Berkeley实验室，英文标题为：Resilient Distributed Datasets: A ...
九七学姐阅读 5,815评论 0赞 3

3.2 弹性分布式数据集
3.2 弹性分布式数据集本节简单介绍RDD，并介绍RDD与分布式共享内存的异同。 3.2.1 RDD简介在集群...
Albert陈凯阅读 5,493评论 0赞 0
冰解的破-spark
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AM...
大佛爱读书阅读 7,818评论 0赞 20
月照美人来
东海升明月月照美人来来至皇城地地宝龙脉旺旺开美人花花香惊鬼神神仙亦爱美美人不爱仙仙葩何所爱爱鸿飞...
风起龙飞阅读 4,404评论 15赞 28

赞1赞

赞赏

手机看全文