Spark RPC 之 Master

概要

上篇文章Spark RPC概述介绍了Spark RPC的实现思路,有了上述基础,我们看一个具体例子,就是standalone模式下的Master和Worker,主要关注Worker如何向Master注册信息以及保持心跳。

Master

Master是standalone模式下的主节点,查看定义


image
image

Master继承ThreadSafeRpcEndpoint,ThreadSafeRpcEndpoint继承RpcEndpoint(不了解RpcEndpoint的同学点击这里Spark RPC概述)。RpcEndpoint的生命周期又是: onStart -> receive(receiveAndReply)* -> onStop,所以我们理所当然的关心Master的这四个对应方法。

onStart

image
  1. 启动基于jetty的webUI。

  2. 启动定时任务,默认每60s send CheckForWorkerTimeOut信息给Master(如上图注释处),检测Worker连接情况。根据上篇文章,send方法不需要返回值,信息发送给 Master的receive方法,receive使用scala模式匹配处理信息,如下

    image

    image
    image
    image

    上面几段代码,可以清晰的看出Master根据条件lastHeartbeat < currentTime - WORKER_TIMEOUT_MS判断Worker是否还在发送心跳,如果过期将其从对应集合中删除。lastHeartbeat是Worker最后一次连接的时间,后面讲心跳(Heartbeat)时会讲到。

  3. 如果配置spark.master.rest.enabled=true,启动rest Server。

  4. 启动度量系统,persistenceEngine,leaderElectionAgent分别是关于master recovery和leader选举。

receive

receive方法接收EndpointRef send方法发送的信息,如上面说到的定时检查Worker状态,定义如下

image

我将源码简单整理,如上图所示,这篇文章只关心第一个部分即检测Worker状态和心跳。

  1. Worker状态的检测上面刚分析过。

  2. 心跳机制


    image

    处理Worker发过来的信息,如果worker信息已经存在则更新lastHeartbeat(在onStart方法中提到),否则重新连接master,也就是注册,下面receiveAndReply方法会讲到。

receiveAndReply

receiveAndReply方法接收EndpointRef ask及其衍生方法发送的信息,定义如下

image

这部分我们只关心和Worker相关的RegisterWorker,注册Worker信息到Master,查看具体逻辑

image

  1. 判断Master的状态是不是standby以及WorkerId是否已存在。

  2. 调用registerWorker注册worker信息,查看registerWorker方法


    image

    移除dead和unknown worker,然后注册,所谓的注册就是将worker信息添加到workers、idToWorker、addressToWorker三个集合容器中。

  3. 接下来是recovery相关,然后返回成功或失败信息给Worker。

onStop

关闭webUI等各种服务,截图省略。

Main方法

最后看下Master的启动,main方法


image
  1. 接收参数,包括rpc的host、port(底层netty使用)和webUI server的port,默认如下

    image

  2. startRpcEnvAndEndpoint方法,初始化RpcEnv,注册Master(RpcEndpoint)到RpcEnv,到这里,上面介绍的生命周期onStart -> receive(receiveAndReply)* -> onStop方法开始工作。

启动流程如下,具体请参考Spark RPC之Netty启动

image

总结

结合上一篇文章Spark RPC概述讲解了Master的实现及启动过程,Master是RpcEndpoint的具体实现。其中主要关注了三点
1. Master定时检测Worker连接情况(CheckForWorkerTimeOut)
2. Worker信息注册(RegisterWorker)
3. 心跳(Heartbeat)

Master 60秒发送一次消息 给自己,遍历检查所有 worker 是否在 60秒内有发送心跳给 Master,如果有 worker 60秒内没有发送心跳,则从worker列表中 把这个 work 移除。

work 向Master 发送消息注册信息,Master 接收后 检测这个 worker 是否是 dead 和 UnKnow 的,如果是则移除重新添加,没有也添加到。

worker 每隔 Send a heartbeat every (heartbeat timeout) / 4 milliseconds 默认 15秒发送一次心跳到 Master。

上述 Master 和 Worker 通过RPC 通信。

接下来我们看下Worker的实现以及如何向Master注册和发送心跳。

参考:https://blog.csdn.net/u011564172/article/details/56670364

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343