基于standalone Spark内核架构深度剖析
- 编写spark应用程序打包成jar使用spark-submit模式提交集群上,通过反射方式,创建一个Driver(进程)
- 一个Driver(进程)--执行我们的application应用程序-构建SparkContext(DAGScheduler和TaskScheduler)
- TaskScheduler会负责通过对应一个后台进程,去连接Master,向Master注册Application
- Master接收到Application注册的请求,会使用自己的资源调度算法,在Spark集群的Worker节点,为这个Application启动多个Eecutor(Executor启动之后会自己反向注册到TaskScheduler)
- DAGScheduler将job划分多个stage,每个stage创建一个TaskSet。然后把一个个TaskSet提交给底层调度器Taskscheduler处理;Taskscheduler会把TaskSet里面每一个Task提交到Executor上执行
6.Excetor每接收到一个Task,TaskRunner来封装,然后从线程池中取出一个线程来执行这个Task