spark 任务分发

spark大数据计算框架的原理就是以scala的内存计算为基础,然后将一个大计算量的计算,在spark中叫job,根据宽窄依赖划分成多个stage,每个stage包含多个task,然后把task发送给work上的executor去执行.
shuffle的map操作在上一个stage,shuffle的reduce操作在下一个stage,并且会拉取上一个阶段产生的小文件.

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

Spark性能优化指南——高级篇
1 数据倾斜调优 1.1 调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spar...
wisfern阅读 3,014评论 0赞 23
Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN
Spark 编程指南概述 Spark 依赖初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs)...
草里有只羊阅读 3,412评论 0赞 15

Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN
Spark 编程指南概述 Spark 依赖初始化 Spark 使用 Shell 弹性分布式数据集 (RDDs)...
Joyyx阅读 1,974评论 0赞 4
spark大数据架构初学入门基础详解
Spark是什么 a)是一种通用的大数据计算框架 b)Spark Core离线计算 Spark SQL交互式查询 ...
三万_chenbing阅读 2,565评论 1赞 17
行走中的人生
人生就是在走上坡路，有时候费劲有时候看风景。就看你自己如何体会吧。人生就是一场行走。你的目标决定了你能走多远。而...
还有梦想的麦子阅读 221评论 0赞 0

友情链接更多精彩内容

赞1赞

赞赏

手机看全文