
数据流
简单的数据流程图就是如上,简单描述一下,就是将上游的kafka数据解密,对符合条件的数据解析转换过滤封装 将这部分数据推到下游kafka数据源,同时为了保证实时的可靠性,同时还要把经过处理后的flink数据同时落到数据湖中
踩坑
- 其中的加密字段需要解密 一个是较为简单加密函数,直接封装一个方法静态方法直接调用就行了,另一个是平台方整的加密函数,这个一开始在本地跑通是能够调用这个函数的,但是放入到集群上,就找不到这个文件了,最后采用的是配置方法,直接方法调用配置,这个一开始是遇到环境问题&开发方法问题的
- 使用fastjson的时候,字段顺序不一致的问题,然后是使用jsonfield 指定字段顺序的,包装json的时候其中有一个字段要求是数组类型,一开始是准备在代码中加点东西实现的,但是时间紧迫,改代码风险度数高,一不小心就影响上线了,于是就是javabean中包装了一个单例list collections.singletonlist
- 环境的kafka地址,现网配置,测试配置,标签生产测试环境的编号,是否ck等等测试要改的东西太多了,于是就加了一点条件判断,在运行时候指定环境,这样就不用频繁的改代了
- 数据湖的使用,这个是刚开始使用,现在是平台化的开发没有什么难点,唯一的踩坑点就是关键字也好打飘号,其他的没有什么印象了,还有就是测试的时候报错了,具体什么原因忘记了,不过是很好解决的,哦还有就是iceberg的建表语句..