登录注册写文章

Spark内核系列(一)Spark内核架构

再无风雨也无情_

Spark内核系列(一)Spark内核架构

架构流程图

说明

1. SparkContext初始化 (Standalone模式)

1.首先spark-submit提交Spark应用程序Application.

2.提交之后spark会通过反射的方式创建和构造一个DriverActor进程(Driver进程).

3.Driver进程启动后会进行SparkContext初始化，SparkContext初始化过程中做的最重要的两件事就是构造DAGScheduler和TaskScheduler.

4.构造完TaskScheduler时，TaskScheduler会去连接Master并向Master注册Application

5.Master接收到Application注册请求后会使用自己的资源调度算法，在Spark集群的Work上为这个Application启动多个Executor.

6.Executor启动之后反注册到TaskScheduler.

7.当所有Executor都反向注册到TaskScheduler之后，Driver结束SparkContext的初始化。至此，SparkContext的初始化就告一段落了，接着会继续执行我们自己编写的代码。

2.TaskSet的创建与提交

1.上面讲到，SparkContext的初始化完成之后，接着会继续执行我们自己编写的代码，每执行到一个Action操作就会创建一个job,该job会提交到DAGScheduler，划分为多个stage（stage划分算法），然后为每个stage创建一个TaskSet.

2.TaskScheduler把TaskSet中的每一个task提交到executor上执行。哪些task提交到哪些executor上执行？(task分配算法).

3.executor执行task

1.Executor每次收到一个task都会用TaskRunner来封装task,然后从线程池里取出一个线程执行这个task.（TaskRunner将需执行的算子及函数、拷贝、反序列化然后执行task.）

2.Task有两种，ShuffleMapTask和ResultTask,只有最后一个stage是ResultTask，之前的stage都是ShuffleMapTask。

小结：整个spark应用程序的执行，就是stage分批次作为taskset提交到executor执行，每个task针对RDD的一个partition执行我们定义的算子和函数，以此类推，直到所有操作执行完成为止。另外，上面提到了三个算法，‘Master 的资源调度算法’，‘ stage划分算法 ’，‘ task分配算法 ’，在后面的文章中再详细介绍。

最后编辑于：2017.11.29 10:19:23

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 ...
Spark Streaming 编程指南概述一个入门示例基础概念依赖初始化 StreamingConte...
草里有只羊阅读 4,255评论 0赞 11
spark internal - 作业调度
spark internal - 作业调度作者：刘旭晖 Raymond 转载请注明出处Email：coloran...
当幸福来敲门我阅读 937评论 0赞 0
Spark 架构与作业执行流程
1. 名词解释：作业相关的名词解释 Application：Spark Application的概念和Hadoo...
Java旅行者阅读 4,355评论 2赞 9
【25】巴塞罗那第一天
昨天中午后火车到了巴塞罗那，也是这么多天行程以来，节奏最缓慢的一天。到酒店休息了会傍晚就去海滩边了。晚上7-8点...
小easy阅读 258评论 3赞 1
「哲思＆想法征文」生活千疮百孔，我们用鲜花打上补丁
“幸福的家庭都是相似的；不幸的家庭各有各的不幸。”列夫·托尔斯泰的这句话，在遭遇苦难的时候想起，别有一种尖锐的冷峻...
我是张望好时光阅读 338评论 0赞 3

3赞4赞

赞赏

手机看全文