Flink Checkpoint

1. 目的

为了实现flink任务的容灾与恢复

2. 概念以及实现原理

  • 状态state:指算子或算子并发中的状态数据,与数据流有关系,随流入数据而变化。(例如统计某个算子处理的记录总数)
状态存储
  • 屏障barrier
    barrier作为数据流的一部分随着记录被注入到数据流中。barrier永远不会赶超通常的流记录,它会严格遵循顺序。barrier将数据流中的记录隔离成一系列的记录集合,并将一些集合中的数据加入到当前的快照中,而另一些数据加入到下一个快照中。每一个barrier携带着快照的ID。barrier不会中断流处理,因此非常轻量级。
    barrier的意义就在于,它到达某个算子时,相当于告诉算子,前一个barrier到当前barrier之间的数据都已经到达了
barrier

如果是Exactly Once的模式,会有一个对齐操作。当一个算子有多个入度时,如果一个输入流的某个barrier先到,必须等另一个流相同ID的barrier到达后才能继续放入新的数据。

如果是At Least Once模式,则不会有对齐操作,第一个流的barrier到达后,不会等另一个流的同ID的barrier到达,而是继续放入该流的数据;等第二个流的同ID的barrier到达后,才会触发快照的保存,但此时保存的算子状态是包含了这个barrier之后的数据的,所以不是exactly once而是at least once

双流对齐
  • 快照snapshot
    某一个时机将算子的状态保存下来,注意这里的时机通常不是自然时间意义上的,而是当barrier到达算子时触发。快照是分布式的,也就是当barrier到达某个算子的时候对其进行快照,由于barrier带有ID,因此不同算子在同一个ID下的分布式快照组成一个完整地快照,即使这个快照可能并不是同一个时间产生的,也不是存储在同一个地方。
快照存储
快照恢复
  • 可部分重发的数据源
    可以指定历史数据的位置重放数据,比如Kafka可以持久化数据,并通过偏移量来读取历史数据。

  • 检查点机制checkpoint
    由上可知,同一个id的barrier在经过job中的算子时,都会拍摄snapshot,将算子的state保存下来,所有算子在这个id下的snapshot就是一个checkpoint。它表示的意义是:该barrier之前的数据已经全都处理完并流出job执行图,并且该barrier之后的数据全都没有进入job执行图时候的所有算子的状态。因此如果程序因故中断,需要恢复到某个checkpoint时,只需要把所有算子的状态都恢复到保存该checkpoint的snapshots,然后利用可重发的数据源发送该barrier之后的数据即可。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,163评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,301评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,089评论 0 352
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,093评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,110评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,079评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,005评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,840评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,278评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,497评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,667评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,394评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,980评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,628评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,649评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,548评论 2 352

推荐阅读更多精彩内容

  • 在学习flink的时候看了本书《Stream Processing with Apache Flink》。里面对F...
    WoodsWalker阅读 8,658评论 4 20
  • Flink的Checkpoint机制是Flink容错能力的基本保证,能够对流处理运行时的状态进行保存,当故障发生时...
    biggeng阅读 3,430评论 1 9
  • Flink 提供了容错机制,可以恢复数据流应用到一致状态。该机制确保在发生故障时,程序的状态最终将只反映数据流中的...
    Alex90阅读 5,744评论 1 2
  • Flink中的每个函数和算子都可以是有状态的(详情请看Working With State),有状态的函数通过处理...
    写Bug的张小天阅读 7,434评论 0 6
  • 一、历史变迁 在Flink 1.0.0时期 提供了RocksDB的支持,这个版本之前所有的状态都只能存在进程的内存...
    远o_O阅读 2,563评论 0 1