Spark DAG之划分Stage

概要

介绍Stage的定义，DAGScheduler划分Stage流程。

Stage

查看Stage定义

Stage中有两个重要属性，rdd和parents，分别记录的是切分处的RDD和父Stage信息，这一点结合我后面的例子更好理解。Stage有两个子类，ShuffleMapStage、ResultStage，两者分别增加了一个重要属性信息，如下

stage	差异属性	作用
ShuffleMapStage	shuffleDep: ShuffleDependency	保存Dependency信息
ResultStage	func: (TaskContext, Iterator[_]) => _	保存action对应的处理函数

处理JobSubmitted事件

上一篇最后讲到调用DAGScheduler的handleJobSubmitted方法处理JobSubmitted事件，查看该方法

  private[scheduler] def handleJobSubmitted(jobId: Int,
      finalRDD: RDD[_],
      func: (TaskContext, Iterator[_]) => _,
      partitions: Array[Int],
      callSite: CallSite,
      listener: JobListener,
      properties: Properties) {
    var finalStage: ResultStage = null
    //划分Stage，返回ResultStage，Stage使用 parents 属性保存父 Stage
    finalStage = createResultStage(finalRDD, func, partitions, jobId, callSite)

    //创建ActiveJob，并添加到对应集合管理
    val job = new ActiveJob(jobId, finalStage, callSite, listener, properties)
    jobIdToActiveJob(jobId) = job
    activeJobs += job
    finalStage.setActiveJob(job)
    
    val stageIds = jobIdToStageIds(jobId).toArray
    val stageInfos = stageIds.flatMap(id => stageIdToStage.get(id).map(_.latestInfo))
    //提交 Stage
    submitStage(finalStage)
  }

如上处，handleJobSubmitted方法主要职责如下：

调用 createResultStage 方法，划分DAG生成Stage。
创建ActiveJob，并添加到对应集合管理。
调用submitStage 提交Stage。

划分Stage

DAGScheduler的 createResultStage方法负责划分DAG生成Stage，createResultStage方法：1 调用 getOrCreateParentStages方法创建父Stage，2 创建 ResultStage。
getOrCreateParentStages ：

  private def getOrCreateParentStages(rdd: RDD[_], firstJobId: Int): List[Stage] = {
    getShuffleDependencies(rdd).map { shuffleDep =>
      getOrCreateShuffleMapStage(shuffleDep, firstJobId)
    }.toList
  }

首先 getShuffleDependencies 获取所有的 ShuffleDependency：

  private[scheduler] def getShuffleDependencies(
      rdd: RDD[_]): HashSet[ShuffleDependency[_, _, _]] = {
      
    //记录 所有的 ShuffleDependency
    val parents = new HashSet[ShuffleDependency[_, _, _]]
    
    //记录所有已经处理的 RDD
    val visited = new HashSet[RDD[_]]
    
    //记录所有待处理的 RDD
    val waitingForVisit = new Stack[RDD[_]]
    
    //把当前的 ResultRdd，也就是最后一个RDD，放到 waitingForVisit
    waitingForVisit.push(rdd)
    
    while (waitingForVisit.nonEmpty) {
      //从 waitingForVisit 取出一个 RDD 去处理
      val toVisit = waitingForVisit.pop()
      
      //已经处理的RDD列表中 不包含 要处理的这个RDD
      //保证下面的流程都是针对要处理的RDD
      if (!visited(toVisit)) {
        visited += toVisit
        
        //RDD的 dependencies 方法，保存了所有RDD的 dependency
        toVisit.dependencies.foreach {
          //如果是宽依赖，则添加到 parents
          case shuffleDep: ShuffleDependency[_, _, _] =>
            parents += shuffleDep
            
          //如果是窄依赖，则把这个依赖的 RDD，添加到 waitingForVisit
          //一直往上找，直到找到下一个宽依赖
          case dependency =>
            waitingForVisit.push(dependency.rdd)
        }
      }
    }
    parents
  }

如上面代码注释，getShuffleDependencies里主要逻辑为：通过action操作后的RDD，往上遍历所有RDD，寻找所有的 ShuffleDependency 列表，并返回

然后根据每个 Shuffle 划分 Stage，看下 getOrCreateShuffleMapStage 代码：

  private def getOrCreateShuffleMapStage(
      shuffleDep: ShuffleDependency[_, _, _],
      firstJobId: Int): ShuffleMapStage = {
    createShuffleMapStage(shuffleDep, firstJobId)
  }
  
  def createShuffleMapStage(shuffleDep: ShuffleDependency[_, _, _], jobId: Int): ShuffleMapStage = {
    val rdd = shuffleDep.rdd
    val numTasks = rdd.partitions.length
    
    //再次调用 getOrCreateParentStages 创建 parents
    val parents = getOrCreateParentStages(rdd, jobId)
    val id = nextStageId.getAndIncrement()
    //根据 parents 创建 ShuffleMapStage
    val stage = new ShuffleMapStage(id, rdd, numTasks, parents, jobId, rdd.creationSite, shuffleDep)

    //添加到 Map
    stageIdToStage(id) = stage
    shuffleIdToMapStage(shuffleDep.shuffleId) = stage

    //返回创建的 stage
    stage
  }

例子

val sc = new SparkContext("local","wordcount")
val data = sc.parallelize(List("a c", "a b", "b c", "b d", "c d"), 2)
val wordcount = data.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _).map(x => (x._2, x._1)).reduceByKey(_ + _)

val data2 = sc.parallelize(List("a c", "a b", "b c", "b d", "c d"), 2)
val wordcount2 = data2.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _).map(x => (x._2, x._1)).reduceByKey(_ + _)

wordcount.join(wordcount2).collect()

RDD的依赖关系：

最左一列的parallelize、map等表示实例代码中的transformation。
圆角矩形表示transformation操作生成的RDD和该RDD的Dependency，其中ShuffleDependency使用蓝色标注。

在上图ShuffleDependency处切分DAG生成Stage，结果如下：

圆角矩形代表Stage，结果为四个ShuffleMapStage ，一个ResultStage。
圆角矩形内为Stage的两个属性。ShuffleMapStage和ResultStage有差别。

到这里，Stage就划分完成了，最后贴张spark webUI的图片

总结

会在 Shuffle 处划分 Stage。

最后编辑于：2018.05.15 14:23:13

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,635评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,628评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 165,971评论 0赞 356
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,986评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,006评论 6赞 394
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,784评论 1赞 307
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,475评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,364评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,860评论 1赞 317
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,008评论 3赞 338
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,152评论 1赞 351
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,829评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,490评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,035评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,156评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,428评论 3赞 373
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,127评论 2赞 356

Spark DAG之划分Stage

概要

Stage

处理JobSubmitted事件

划分Stage

例子

总结

推荐阅读更多精彩内容