Flink时间语义和watermark(水位线)

时间语义

  • Event Time:事件创建的时间
  • Ingestion Time: 数据进入Flink的时间
  • Processing Time: 执行操作算子的本地系统时间,与机器相关

不同的时间语义有不同的应用场合
我们往往更关心事件时间(Event Time)
Event TIme可以从日志数据的时间戳(timestamp)中提取

如果在日志中没有时间戳或者日志中的时间戳不准,这时可以使用处理时间(Process Time)

代码中默认使用处理时间(Process Time),需要在代码中设置Event Time
对运行环境调用setStreamTimeCharacteristic方法,设置流的时间特性,具体时间,还需要从数据中提取时间戳(timestamp)

env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);

当使用Event Time模式处理数据时,乱序数据的影响

  • 由于网络,分布式等原因,会导致乱序数据的产生
  • 当Flink以Event time模式处理数据流式,它会根据数据里的时间戳来处理基于时间的算子
  • 为避免乱序数据对Event Time模式处理数据的影响,引入Watermark(水位线)概念

Watermark(水位线)

  • 避免乱序数据:遇到一个时间戳达到了窗口关闭时间,不应该立刻触发窗口计算,而是等待一段时间,等迟到的数据来了再关闭窗口
  • Watermark是一种衡量Event Time进展的机制,可以设定延迟触发
  • Watermark是用于处理乱序事件的,而正确的处理乱序事件,通常用Watermark机制结合window来实现
  • 数据流中的Watermark用于表示timestamp小于Watermark的数据,都已经到达了,<u>因此,window的关闭执行是由Watermark触发的;不过触发的窗口的数据范围还是windows自己定义的范围</u>
  • watermark用来让程序自己平衡延迟和结果正确性

watermark的特点:

  1. watermark是一条带着时间戳的特殊数据记录
  2. watermark必须单调递增,以确保任务的事件时间时钟在向前推进,而不是在后退
  3. watermark与数据的时间戳相关

watermark的传递

  1. 当重分区时,是把上游的watermark广播到下游所有分区中;因为上游可能是多个任务并行在跑,下游接收到的watermark会有多个,这个时候上游广播给下游的最小的watermark;(木桶原理)
    watermark原理:表示在watermark之前时间数据都接收到了

watermark的设定
在Flink中,watermark由开发人员生成,通常需要开发人员对正在处理的数据和业务有一定的了解,可以知道设置watermark的延迟设置多少,能保证实时数据尽量正确;
watermark的延迟设定,需要先看数据情况,分析得出最佳延迟时长
如果还有数据丢失,可以使用旁路输出sideOutputLateData,这样当窗口关闭后,数据可以从侧输出流输出

watermark的生成
watermark生成(Generator)分为周期性生成(Period Generator)后标记生成(Punctuated Generator);

  • 周期性生成的生成周期是由ExecutionConfig.getAutoWatermarkInterval()决定默认是200ms

  • 标记生成是来一条数据,生成一个watermark

对于数据量过大,同一个时间戳中来大量数据,这时候也会生成很多重复的watermark,会多消耗资源,降低数据处理速度,这个时候建议使用周期性生成watermark;
在数据稀疏时和时效性强时,可以使用标记生成watermark

  • 在大数据中常用选择是周期性生成watermark

Windows窗口起始点和偏移量

event time窗口起始点是根据TumblingEventTimeWindows中代码生成的,如下代码语句,是使用传入的时间戳和窗口偏移量计算得出

long start = TimeWindow.getWindowStartWithOffset(timestamp, (this.globalOffset +this.staggerOffset) % this.size, this.size);

具体计算公式如下:

public static long getWindowStartWithOffset(long timestamp, long offset, 
long windowSize) 
{    
return timestamp - (timestamp - offset + windowSize) % windowSize;
}

偏移量一般用于配置时区问题,比如北京时间和伦敦时区,早8个小时,这个时候可以设置偏移量8小时

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,657评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,662评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,143评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,732评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,837评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,036评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,126评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,868评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,315评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,641评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,773评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,859评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,584评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,676评论 2 351

推荐阅读更多精彩内容