- Driver
Driver(进程),我们编写的Spark程序就在Driver上,由Driver进程执行 - Master
Master是个进程,主要是负责资源的调度和分配,还有集群的监控等等职责 - Worker
Worker是个进程,主要负责有两个,一个是用自己的内存,存储RDD的某个或某些partition,另一个是启动其他进程和线程,对RDD上的partition进行并行的处理和计算 - Executor
-
Task
Executor和Task,其实就是负责执行,对RDD的partition进行并行计算,也就是执行我们对RDD定义的,比如map、flatMap、reduce等算子操作
- Driver进程启动后,会做一些初始化操作,在这个过程中,就会发送请求到Master上,进行Spark应用程序的注册,说白了,就是让master知道,有一个新的Spark应用程序要运行
- Master,在收到了Spark应用程序的注册申请之后,会发送请求给Wroker,进行资源的调度和分配,资源分配,就是executer的分配
- Wroker收到Master的请求之后,会为Spark应用启动Executor
- Executor启动之后,会向Driver进行反注册,这样,Driver就知道,哪些Executor是为它进行服务的了
- Driver注册了一些Executor之后,就可以开始正式执行我们的spark应用程序了,首先第一步,就是创建初始RDD读取数据源
- HDFS文件内容被读取到多个Worker节点上,形成内存中的分布式数据集,也就是初始RDD
- Driver会根据我们对RDD定义的操作,提交一大堆task去Executor上
- Executor收到task之后,会启动多个线程来执行task
- task就会对RDD的partition数据执行指定的算子操作,形成新的RDD的partition,然后Driver就会向Executor提交新的task