Spark Streaming - Receiver启动流程

在Spark Streaming整个架构体系里面,数据接收其实最为关键的一个流程,在数据接收完之后,后面的数据处理上面就是复用Spark Core的数据处理架构(包括BlockManager来管理数据),之后就是”水到渠成”的工作。所以作为Spark Streaming第一个章节,我们这里先从Receiver的启动流程介绍起走。

Receiver 架构

目前整个Spark Streaming架构里面,支持两种数据接收的方式: Receiver, Direct. 区别在[Spark-kafka-integration]里面有了详细介绍,后续会详细解读两者的区别。回到Receiver, 我们首要介绍下目前Receiver的架构。

Receiver.png

在我们自己实现Receiver里面主要关注几个点:

  1. onStart() 里面实现接受数据的逻辑,这里面只需要关心数据如何接收,无需关于SS里面的周期性等,而且必须是No-blocking的,所以这里一般会启动一个Thread,然后在里面不停地接受数据。
  2. Reliability保证,每个Receiver接受了数据之后,就需要存储到Spark的内存中区,这里就是调用Store方法,为了确保Reliability, 需要在Store成功之后进行ACK返回,甚至在这里需要进行WAL保证。
  3. 当写完成Receiver,会把这个Receiver封装到DStream里面,每个DStream都会有自己compute方法来触发从Receiver接受的数据进行转换转换为BlockRDD进而利用Spark Core的计算流程中

Receiver 启动流程

启动Receiver是一趟修炼的道路,会学习一种利用Spark分布式的环境启动自己的Process的方法。首先我们看下大致画的流程图如下:

Receiver启动流程.png
  1. Streaming的开始都是源于StreamingContext, 当初始化的时候,会产生JobScheduler(这货是驱动Streaming Job的关键),在StreamingContext.start()的时候,整个JobScheduler就开始Start啦。
  2. ReceiverTracker, 他会负责整个StreamContexts里面的所有ReceiverInputDStream里面的Receivers的管理(略绕)。
  3. 那我们直接到StartAllReceivers()里面,这里面会先做schedule, 根据目前我们SS里面的Executors 和 所有需要启动的Receivers 统一考虑,来安排一下那些Receiver需要在哪个Executor上面进行启动。
val scheduledLocations = schedulingPolicy.scheduleReceivers(receivers, getExecutors)
  1. 最巧妙的地方来了,全部精华就在ReceiverTracker里面:
      // Function to start the receiver on the worker node
      val startReceiverFunc: Iterator[Receiver[_]] => Unit =
        (iterator: Iterator[Receiver[_]]) => {
          if (!iterator.hasNext) {
            throw new SparkException(
              "Could not start receiver as object not found.")
          }
          if (TaskContext.get().attemptNumber() == 0) {
            val receiver = iterator.next()
            assert(iterator.hasNext == false)
            val supervisor = new ReceiverSupervisorImpl(
              receiver, SparkEnv.get, serializableHadoopConf.value, checkpointDirOption)
            supervisor.start()
            supervisor.awaitTermination()
          } else {
            // It's restarted by TaskScheduler, but we want to reschedule it again. So exit it.
          }
        }

      // Create the RDD using the scheduledLocations to run the receiver in a Spark job
      val receiverRDD: RDD[Receiver[_]] =
        if (scheduledLocations.isEmpty) {
          ssc.sc.makeRDD(Seq(receiver), 1)
        } else {
          val preferredLocations = scheduledLocations.map(_.toString).distinct
          ssc.sc.makeRDD(Seq(receiver -> preferredLocations))
        }
      receiverRDD.setName(s"Receiver $receiverId")
      ssc.sparkContext.setJobDescription(s"Streaming job running receiver $receiverId")
      ssc.sparkContext.setCallSite(Option(ssc.getStartSite()).getOrElse(Utils.getCallSite()))

      val future = ssc.sparkContext.submitJob[Receiver[_], Unit, Unit](
        receiverRDD, startReceiverFunc, Seq(0), (_, _) => Unit, ())
      // We will keep restarting the receiver job until ReceiverTracker is stopped
      future.onComplete {
        case Success(_) =>
          if (!shouldStartReceiver) {
            onReceiverJobFinish(receiverId)
          } else {
            logInfo(s"Restarting Receiver $receiverId")
            self.send(RestartReceiver(receiver))
          }
        case Failure(e) =>
          if (!shouldStartReceiver) {
            onReceiverJobFinish(receiverId)
          } else {
            logError("Receiver has been stopped. Try to restart it.", e)
            logInfo(s"Restarting Receiver $receiverId")
            self.send(RestartReceiver(receiver))
          }
      }(ThreadUtils.sameThread)
      logInfo(s"Receiver ${receiver.streamId} started")
  • 首先是startReceiverFunc,注意这里只是一个function, 它把传入的Receiver封装成ReceiverSupervisorImpl, 给每个Receiver创建监督人,监督人主要是负责启动Receiver存储Receiver接受的数据 以及 同Driver保持通信
  • 这时候创建出一个ReceiverRDD, 根据之前Receiver和Executor的安排, 这个RDD的内容就是 receiver -> 它安排的executor的host.
  • 然后利用ssc.sparkContext.submitJob把这个RDD以及刚刚startReceiverFunc一起提交到集群上面去。这时候就利用Spark Core的分布式计算框架,让receiver 分散到自己prefer的host上面进行了启动。
    这里就交了我们一招如何利用Spark分布式计算环境,启动我们自己进程的任务。关键点: 构造出自己数据对于的运行Executor, 然后把这批数据启动流程function构造出来,最后利用ssc.sparkContext.submitJob()
  1. 在ReceiverSupervisor, 用于处理Receiver收到的数据,并且利用BlockGenerator 来产生最终数据的Block.

总结

在Spark Streaming里面数据接收是关键,我们从上面看到我们的Receiver的启动流程,也学到如何利用Spark这个分布式平台进行提交自己的Job. 后面我们会看到Spark Streaming里面Job启动的流程。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,864评论 6 494
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,175评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,401评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,170评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,276评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,364评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,401评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,179评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,604评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,902评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,070评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,751评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,380评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,077评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,312评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,924评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,957评论 2 351

推荐阅读更多精彩内容