流式计算中的 2 个问题:
⭐ 流式数据到达计算引擎的时间不一定:比如 A 流的数据先到了,A 流不知道 B 流对应同 key 的数据什么时候到,没法关联(数据质量问题)
⭐ 流式数据不知何时、下发怎样的数据:A 流的数据到达后,如果 B 流的数据永远不到,那么 A 流的数据在什么时候以及是否要填充一个 null 值下发下去(数据时效问题)
从上面两个问题也可以得出大数据中的 2 个核心问题:
1.⭐ 数据质量问题
2. 数据时效性问题
解决方法1.
1.优先使用connect算子,第二选择是使用join算子
2.如果使用flinkSQL的话,那就用 full join
其他解决方法略