spark 任务运行流程

正常启动Spark集群时往往使用start-all.sh ，此脚本中通过调用start-master.sh和start-slaves.sh启动mater及workers节点。

spark-submit提交Spark应用程序后，其执行流程如下：

1 在worker node创建Driver进程，Driver创建SparkContext对象，然后SparkContext会向Clutser Manager（集群资源管理器），例如Yarn、Standalone、Mesos等申请资源。

Driver进程，也是作业的主进程，负责作业的解析、生成Stage并调度Task到Executor上。包括DAGScheduler，TaskScheduler。

2 在worker node上创建executor并分配资源（CPU、内存等)，后期excutor会定时向资源管理器发送心跳信息。

3 SparkContext启动DAGScheduler，将提交的作业(job）转换成若干Stage，各Stage构成DAG（Directed Acyclic Graph有向无环图），各个Stage包含若干相task，这些task的集合被称为TaskSet。当RDDG触发相应的action操作（如collect）后，DAGScheduler会根据程序中的transformation类型构造相应的DAG并生成相应的stage，所有窄依赖构成一个stage，而单个宽依赖会生成相应的stage。

4 TaskSet发送给TaskSet Scheduler，TaskSet Scheduler将Task发送给对应的Executor，同时SparkContext将应用程序代码发送到Executor，从而启动任务的执行

5 Executor执行Task，完成后释放相应的资源。

最后编辑于：2017.12.04 03:19:44

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

spark 任务运行流程

spark 任务运行流程

相关阅读更多精彩内容

友情链接更多精彩内容