1. 概要
JOB是DAG图中的最高层的逻辑抽象, 上文提到过, RDD的Action操作提交会生成一个JOB.
既然客户给了需求, 就要抽丝剥茧, 一层一层网上找依赖, 最终形成了一个DAG的执行图.
执行JOB的过程, 等同于对RDD中的parition进行操作的过程. JOB中的parition依赖上游的两种可能的计算结果 ResultStage或者ShuffleMapStage
Map-stage job DAG图中间的shuffle操作, 会生成ShuffleMapStage. 这个结果是一个中间结果. 这里会挂起好几个和性能高度相关的统计信息, 后文有机会再说明.
Result job 最终结果, 没有任何后置的stage了, 是整个DAG图的most deep node