数据仓库的数据处理

经过一段时间的代码阅读,我对历史项目的流程和数据库结构已经有了初步的认知了,确实有了一些可以落地的数据仓库的做法。


首先还是要把原始表全部倒入进来,然后在数据仓库上做数据粗加工。

首先是导出原始表,这里有2个问题,一个是导出多少字段,不少表的字段我也不清楚,但是为了以后的分析,还是导出所有字段,第二个问题是增量还是全量,首先增量,但是要确保每个记录嗯更新时间是有的,这个还需要进一步完善。


然后是历史数据的处理,要多多少?我这里只做到把标志位从字符解析出来单独保存就行。

由于历史数据的处理上,很多标志位没有采用数据库字段的方式,这就导致了无法做到标准的查询一下,所以需要在建立新的标志位,将文本中标志位的内容存放在一段中,例如在合同的开头字母是表示合同类型的,就需要在etl过程中把合同类型单独存放,还好之前做了一些数据清洗,这部分问题不大。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容