记一次Flink消费kafka数据恢复机制

现在我有一个数据架构：Flink消费kafka，开启windows窗口聚合存ES。某天的晚上Flink挂机，未加报警机制，3小时后才发现。如何才能把丢失的Kafka数据补充回来？

大家都知道Flink可以配置Kafka对offset的处理方式：

1）setStartFromLatest //从最后一个Kafka offset开始消费

2）setStartFromGroupOffsets //从你的group对应消费的最后一个offset后的数据进行消费

3）setStartFromEarliest //从kafka一开始的数据开始消费

4）setStartFromTimestamp //从某个时间点开始消费

5）setStartFromSpecificOffsets //从某个特殊的offset开始消费

我们要解决以上问题，毋庸置疑要选择使用第二种方式，kafka版本<=0.8，需要配置消费时，上报你消费的offset,后期版本就自动上报了，此时，kafka服务会帮你记录你的group 到底消费到了哪个offset,下次重启时，kafka顺理成章的知道要从哪个offset开始给你推送数据。

不过，Flink有一套自己的DR机制，只需要你启动服务时开始checkpoint，此时Flink作业会根据你给出的频率定时生成分布式快照，并存储在你指定的hdfs位置，此时，这个数据结构中亦存储了一份当前作业消费kafka的情况：哪个partition消费到了哪个offset。当你发现问题并重启Flink时，Flink作业会告诉kafka我要从哪个offset开始消费，这样我们的数据也就恢复了。

对这两种方式，Flink作业会优先使用自己本地CheckPoint中存储的offset，Kafka中存储的offset使用优先级较低。