spark 源码阅读RDD(一)

1. RDD 分布式数据集合,静态模型 ,解决规划的问题 ,RDD 被运行起来后才解决实际的问题 ,对应两个操作transformation action 

2 .spark 接收到作业后的运行流程

(1)RDD之间宽窄依赖分析,RDD之间形成一个有向五环图,DAGScheduler 负责划分有向无环图。

(2)根据DAG 分析结果讲一个作业分为多个stage ,划分stage 主要依据当前的计算因子输入是否是确定的,如果是则划分到同一个stage 中。

(3) DAGScheduler 在确定完成stage 之后,会向 DAGScheduler 提交任务集合taskSet 向TASKsScheudler ,TaskScheduler 负责将任务分发的每一个计算几点 Executor

  流程图 : 


spark 任务调度

Spark 集群节点组成 (1) Driver  (2) Master (3) Worker (4) Executor

Driver 节点比较特殊 ,可以运行在 集群内部, 也可以运行在集群之外 ,例如YARN Cluster 模式中是运行在集群内的 ,YARN CLINET 运行在集群外的 

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容