记一次Flink消费kafka数据恢复机制

现在我有一个数据架构:Flink消费kafka,开启windows窗口聚合存ES。某天的晚上Flink挂机,未加报警机制,3小时后才发现。如何才能把丢失的Kafka数据补充回来?

大家都知道Flink可以配置Kafka对offset的处理方式:

1)setStartFromLatest  //从最后一个Kafka offset开始消费

2)setStartFromGroupOffsets //从你的group对应消费的最后一个offset后的数据进行消费

3)setStartFromEarliest  //从kafka一开始的数据开始消费

4)setStartFromTimestamp  //从某个时间点开始消费

5)setStartFromSpecificOffsets //从某个特殊的offset开始消费

        我们要解决以上问题,毋庸置疑要选择使用第二种方式,kafka版本<=0.8,需要配置消费时,上报你消费的offset,后期版本就自动上报了,此时,kafka服务会帮你记录你的group 到底消费到了哪个offset,下次重启时,kafka顺理成章的知道要从哪个offset开始给你推送数据。

       不过,Flink有一套自己的DR机制,只需要你启动服务时开始checkpoint,此时Flink作业会根据你给出的频率定时生成分布式快照,并存储在你指定的hdfs位置,此时,这个数据结构中亦存储了一份当前作业消费kafka的情况:哪个partition消费到了哪个offset。当你发现问题并重启Flink时,Flink作业会告诉kafka我要从哪个offset开始消费,这样我们的数据也就恢复了。   

     对这两种方式,Flink作业会优先使用自己本地CheckPoint中存储的offset,Kafka中存储的offset使用优先级较低。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。