spark运行框架

运行框架
- 提交一个spark应用时候会对应生成一个driver进程
- 注册spark任务到cluster manager 申请需要的资源
- cluster manager 协调多个work申请需要的资源
(例如申请三个实例每个1个cpu和300m的内存就会申请到3个executor) - 申请的executor反向注册到driver 使driver和executor一起运行spark程序
spark运行时

spark运行时
spark job 是 appliction

appliction
- 一个appliction又可以划分多个job
- 划分依据是类似collect和save的Action算子
- job之际划分多个stage
- 划分依据就是groupbykey宽依赖shuffle算子
- stage划分多个task
- task是spark运行的最小调度单元