1. RDD 分布式数据集合,静态模型 ,解决规划的问题 ,RDD 被运行起来后才解决实际的问题 ,对应两个操作transformation action
2 .spark 接收到作业后的运行流程
(1)RDD之间宽窄依赖分析,RDD之间形成一个有向五环图,DAGScheduler 负责划分有向无环图。
(2)根据DAG 分析结果讲一个作业分为多个stage ,划分stage 主要依据当前的计算因子输入是否是确定的,如果是则划分到同一个stage 中。
(3) DAGScheduler 在确定完成stage 之后,会向 DAGScheduler 提交任务集合taskSet 向TASKsScheudler ,TaskScheduler 负责将任务分发的每一个计算几点 Executor
流程图 :
Spark 集群节点组成 (1) Driver (2) Master (3) Worker (4) Executor
Driver 节点比较特殊 ,可以运行在 集群内部, 也可以运行在集群之外 ,例如YARN Cluster 模式中是运行在集群内的 ,YARN CLINET 运行在集群外的