Spark核心原理,组件介绍

  • standalone模式

master

负责集群资源的管理,主要负责worker的注册,driver的注册

worker

负责向master注册本机资源,负责启动Executor

Exexutor

Executor是真正的计算资源,管理本机的task。负责和driver的CoarseGraindSchedulerBackend通信,接收任务,完成任务,以及修改任务状态。

driver

客户端程序启动的时候就是一个driver。

job

一个Action操作就会触发一次job

sparkContext

客户端程序启动时候的核心。启动的时候会初始化TaskScheduler,SchedulerBackend,DAGScheduler三大组件

DAG

spark会在执行job的时候首先构建DAG图(有向无环图),根据DAG来调度task。

Task

一般情况下RDD的一个分区就会生成一个task。具体执行作业的对象。

TaskScheduler

具体调度task的调度器。

DAGScheduler

具体调度DAG的调度器,生成DAG图

SchedulerBackend

调度Executor执行,和CoarseGrainExecutorBackend进行通信。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容