flink kafka consumer解析

1. 涉及组件

FlinkKafkaConsumer是用户使用Kafka作为Source进行编程的入口,它有一个核心组件KafkaFetcher,用来消费kafka中的数据,并向下游发送接收到的数据,如果调用了FlinkKafkaConsumer#assignTimestampsAndWatermarks,还负责WaterMark的发送,WaterMark是本篇文章的重点。
我们先看下KafkaFetcher的组成

  • 消费线程,用来构建KafkaConsumer客户端,向Kafka请求指定的分区数据,将获取的批量数据ConsumerRecords放入到HandoverHanderover可以看成一个同步队列,生成一个必须等到被消费后才能再生产
  • 任务线程,用来消费Handerover中的数据,将ConsumerRecords反序列化为一条条的数据,然后存储在队列ArrayDeque中,然后同一个循环来消费该队列中的消息,用来做三件事情(看图吧,这里不写了)
  • 在创建KafkaFetcher时,会根据watermark的发送间隔,向timeService提交一个定时任务,定时的更新每个partition的watermark,然后取各个partition中最小的watermark,作为任务的候选watermark进行更新,如果更新成功则会向下游发送
    KafkaFetcher

2. WaterMark的传播

下面是调用了FlinkKafkaConsumer#assignTimestampsAndWatermarks之后,KafkaFetcher中管理WaterMark的示意图

  • 只是一个Task,该Task消费2个分区
  • 更新每个分区的WaterMarkKafkaTopicPartitionStateWithWatermarkGenerator用来执行WatermarkGenerator.onPeriodicEmit方法,并通过多路复用器WatermarkOutputMultiplexer将每个partition生成的WaterMark存储到OutputState中,当新生成的WaterMark大于存储在OutputState中的WaterMark时,则更新OutputState中的WaterMark
  • 更新Task WaterMark:通过多路复用器WatermarkOutputMultiplexer遍历所有非IDLE状态的OutputState的Watermark,取最小的作为最新的Task的WaterMark,如果该值大于老的Task WaterMark,则更新并向下游发送
    watermark管理

2.1 WaterMark传播可能产生的问题:Window算子不被触发

示例

如图,假设partition1没有数据了,它的watermark就不更新,则Task1由于Task WaterMark得不到更新,不往下面发送WM,而Task2发送WM(30),下游任务接收后,也会取最小,还是10,这样会导致下游的Window计算不会被触发。
解决办法assignTimestampsAndWatermarks.withIdleness(Duration.ofMinutes(1)),上面的是示例,表示如果某个partition在1分钟内没有数据可供消费了,则将该partition置为IDLE,在更新Task WaterMark将该partition的WaterMark忽略。当所有的partition都IDLE了,则会向下游发送StreamStatus.IDLE事件,接下来发生的事情可以参考flink解析:EventTime与Watermark

2.2 API使用不当产生的问题:丢失数据

final FlinkKafkaConsumer<String> producer = new FlinkKafkaConsumer<>(sourceTopic, new SimpleStringSchema(), properties);    
env.addSource(producer).assignTimestampsAndWatermarks(getWatermarkStrategy()));

不是调用的FlinkKafkaConsumer#assignTimestampsAndWatermarks而是调用DataStreamSource#assignTimestampsAndWatermarks,可能会产生数据丢失的问题

示意图
  • 代码那样写,consumer与assignTimestampsAndWatermarks就是2个operator了,WaterMark直接按照规则往下发了,当40发过去后,20过去就被当成迟到数据了,这需要注意
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,324评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,356评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,328评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,147评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,160评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,115评论 1 296
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,025评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,867评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,307评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,528评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,688评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,409评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,001评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,657评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,811评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,685评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,573评论 2 353

推荐阅读更多精彩内容