一种通用调度平台的设计思路

根据笔者的工作经历,这里总结一种通用调度平台的设计思路。

这里会分三部分介绍:

1、相关概念。明确调度平台中常用的术语,避免歧义。

2、设计思路。分模块介绍各个模块的设计思路。

3、一些问题的处理方法。

1、相关概念

调度平台顾名思义就是调度任务的平台,在说调度平台之前需要先明确一下任务的概念。

工作流:有的同学认为执行一个脚本就是执行一个任务,而有的同学则是将多个脚本组装的流称为任务。本文采用后者的思路,为了避免歧义,则会将任务流称为工作流。

实例:工作流每次调度的记录则是一个实例。比如说工作流A每小时执行一次,那么3点钟的执行记录是一个实例,4点钟的执行记录也是一个实例。

节点:一个工作流包含多个需要调度的脚本,每个脚本称为一个节点。

调度器(Master):调度工作流的模块叫调度器。

执行器(Executor):执行工作流中节点的模块。

整个架构如下所示:


调度平台

2、设计思路

2.1、工作流的存储、转换思路

工作流包含四部分内容:

工作流的基本配置信息,比如说名字,开始执行时间,调度间隔,执行队列,执行超时时间,超时是否告警,管理员等

工作流中节点的依赖信息:比如说节点A的父节点是任务B和任务C,任务B和任务C都只有一个子节点任务A

工作流中节点的配置信息:比如说节点A是一个filter节点,需要配置filter的条件,filter的字段以及filter的值

工作流间的依赖信息:当前工作流可以依赖于另外一个工作流,也可以只依赖于其中一个节点。比如说工作流A是一个天任务,工作流B是一个小时任务,工作流A依赖于工作流B的24个实例。

存储层:

思路一:

四部分单独存储,存为四张表。使用时组装即可。

思路二:

以工作流为核心,内部组件存储在一起,依赖另外存储。也就是说前三部分存一个表,第四部分存一个表。依赖部分和节点的配置信息分别用json存储。

适配层:

适配层提供了一个规整后的工作流,包含基本信息,节点配置,节点依赖,工作流依赖等,并且提供任务流到指定调度引擎任务的转换。其目的主要是为了适配不同的调度引擎。比如说当前的调度引擎用的是airflow,用了一段时间后发现问题特别多,自己写了一套调度逻辑,此时适配层的作用就体现出来了。同时也解决了多个调度器同时运行的问题。

2.2、调度器的设计思路

调度器可以用现有开源的组件,比如说airflow。也可以自己写一套调度逻辑,这里则是介绍如果自己设计调度器,需要从那些角度考虑。

调度器包含实例生成、调度两个模块。

实例生成模块:

实例生成模块包含实例生成和依赖检测两个部分。

实例生成不用管任务的依赖,只需要根据任务配置的调度周期生成实例即可,但生成的实例状态不是待执行状态,而是依赖检测状态。调度器不会调度依赖检测状态的实例。

依赖检测则是选择依赖检测状态的实例,检测它们的依赖的实例或者节点是否都已全部执行成功,如果满足则将实例的状态置为待执行。调度器会调度待执行状态的实例。

调度模块

调度模块包含从数据库取出待执行实例,解析节点DAG关系,对外提供服务三个部分。

取出待执行实例部分的逻辑比较简单,如果当前正在执行的实例个数小于阀值,则以某种优先级取出实例即可。这里可能还涉及到队列限制等。

解析节点DAG部分则是根据节点的DAG关系进行解析,将满足依赖的节点放到内存队列中。

对外提供服务部分则是对外提供http或者rpc服务,供执行器从队列中拉节点执行,以及接收执行器的执行结果。

2.3、节点的管理思路

节点是一个传入参数就可以执行的脚本。

节点脚本存储

首先面临的一个问题是节点的脚本存在哪?有三种方案:

第一种是节点的脚本放在调度器,执行器执行时从调度器拉脚本。

第二种是节点的脚本放在执行器,执行器执行时直接从本地读文件执行即可。

第三种是构建一个节点平台,节点平台管理所有的节点,执行器执行时从节点平台拉脚本执行。

第一种方案的弊端是调度器耦合了节点的管理逻辑,当节点频繁更新时,可能会影响调度器的执行;第二种方案的弊端是更新节点的脚本比较麻烦,需要手动下发;第三种方案的弊端是管理比较复杂。这里的方案根据特点自己选择即可。

节点执行时,执行器直接impor节点执行即可。

3、常见问题的处理方法

3.1、节点是push or pull?

如果选用push,那么调度器需要做三件事,挑选节点,挑选执行器,把节点配置信息推到执行器。挑选执行器这块会比较复杂,可能需要根据执行器执行的任务个数,执行器当前的资源来决定。

如果选用pull,调度器需要做两件事,挑选节点,向执行器返回节点的配置信息。

下面的问题都是基于节点是以pull的方式讨论的。

3.2、如何保证高可用和高扩展?

调度器采用主备的方式(ZK实现),同一时间点只有一个调度器可用。

执行器属于对等的方式,各类执行器保持一致,需要添加机器时直接增加即可,无需重启集群。

调度器监控执行器,当执行器丢失时,重置执行器上面正在执行的任务;

执行器监控调度器,当调度器丢失时,从zk上面获取新的调度器ip。

3.3、调度器丢失时,如何保证数据的一致性?

方案一:备调度器检测到主调度器丢失时,直接将正在执行的任务全部重置,自己变为主调度器;执行器检测到master丢失时,直接丢掉所有正在执行的节点;

所有正在执行的任务都是从刚正在执行的节点开始执行,数据不会错乱。

方案二:备调度器检测到主调度器丢失时,自己变为主调度器,将正在执行的任务和节点恢复到内存中;执行器检测到master丢失时,继续执行节点,向master返回节点执行的结果时,如果发现master不可用,将节点的执行结果写到本地,每隔段时间重试一次,直至master恢复。

3.4、如何规避调度器和执行器的假死?

假设一执行器所在的机器负载特别高,丢失了zk连接,导致调度器认为执行器挂掉,调度器将节点调度到其他机器执行,过了一段时间后,执行器恢复,向调度器返回节点的执行结果。有如下的影响:

1、同一节点被执行了两次,且数据不一致。不讨论节点执行返回的结果是否幂等,节点的统计信息也会有异常。比如说任务A 3点钟由执行器a开始执行,3点半时执行器a假死,任务A被执行器b开始执行,此时任务A的起始执行时间为3点半,但过会后执行器a恢复,继续执行任务A,4点钟向调度器返回结果,如果没有一些限制措施,则会更新任务A的结束执行时间为4点。此时任务A的起始时间时执行器b的开始时间,结束时间时任务b的结束时间。

2、执行器恢复后未向zk注册,导致调度器未监控到该执行器,如果该执行器再次挂掉,会导致节点假死处于一直被执行的状态。

如果是调度器假死后恢复,对数据的影响不大,但内存中记录的正在执行的节点会一直保留,产生误告警之类的信息。

解决方案:

节点被两个执行器更新的问题:执行器拉取的节点加一个标记位,只有标记位相同的结果才能更新。

执行器假死的问题:执行器有个线程定时监测自己的zk是否存在,如果不存在,创建。

调度器假死的问题:调度器有个线程定时监测主调度器的ip是否是自己的ip,如果不是,自动转换为备调度器。

3.5、隔离计算密集型节点和IO密集型节点

业务场景越多,节点也就越多。根据节点的计算逻辑,可以将节点分为计算密集型节点和IO密集型节点。针对于节点不同的特性,可以将执行器分为多种类型,比如说IO密集型执行器和计算密集型执行器,每种类型的执行器可以通过配置决定自己能执行什么类型的任务。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,271评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,275评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,151评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,550评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,553评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,559评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,924评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,580评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,826评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,578评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,661评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,363评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,940评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,926评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,156评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,872评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,391评论 2 342