Dag图，Job生成

最近在负责Spark Streaming 结合 Spark Sql的相关项目，语言是Java，留下一些笔记，也供大家参考，如有错误，请指教！

划分算法：从后往前，遇到Shuffle就断开，遇到窄依赖就加入，每个 stage 里面 task 的数目由该 stage 最后一个 RDD 中的 partition 个数决定。

每一个小圆就是一条Result,执行过程一目了然。

参考地址：https://github.com/JerryLead/SparkInternals/blob/master/markdown/3-JobPhysicalPlan.md

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

Spark详解03Job 物理执行图
Job 物理执行图在 Overview 里我们初步介绍了 DAG 型的物理执行图，里面包含 stages 和 t...
Albert陈凯阅读 1,597评论 0赞 3
Spark性能优化指南——基础篇
1 前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数...
wisfern阅读 2,448评论 3赞 39
Spark性能优化指南——高级篇
1 数据倾斜调优 1.1 调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spar...
wisfern阅读 2,942评论 0赞 23
数据倾斜与shuffle类性能调优
场景数据倾斜解决方案与shuffle类性能调优分析数据倾斜有的时候，我们可能会遇到大数据计算中一个最棘手的...
过江小卒阅读 3,492评论 0赞 9
Spark job提交过程
本文基于spark2.11 1. 前言 1.1 基本概念 RDD关于RDD已经有很多文章了，可以参考一下理解Spa...
aaron1993阅读 1,819评论 0赞 3

1赞2赞

赞赏

手机看全文