经过一段时间的学习,现在对于历史业务库终于有了更多的了解了,无论是业务下查询还是表结构还是字段内容构成,以及表之间的关系,都做了不少记录,下一步计划开始准备数据仓库的在更大的环境下进行查询与分析。
首先是从业务库中导出数据,最好是平时增量,就是每天运行,只导出昨天的数据(创建与变更),但是这里有个要求,就是被导出的表的创建与变更时,都有时间记录,否则就会遗漏,当然这里也有一个补充方案,就是每个周末导出一份全量数据,作用补充。
下一步是指定哪些表需要导出,由于对于业务流转已经有了认知,主要的表已经清楚了,可以指定出来。
下一步就是围绕指定的表进行导出开发。
这里要注意,由于存在多个历史业务库,所以不同客户的业务是单独导入到不同数据库中的,只为他们具有相似的表结构,但是又不完全相同。导出到单库以后,可以对单用户进行多维度分析,如果相对多客户的数据进行全局分析,就需要再将不同客户的数据再导入到一个新库中,成为全局的分析数据表,当然,这里边可能要进一步整合两个不完全相同的表结构和数据。
先分析一下单客户的数据,这里对数据的查询与分析的逻辑,是完全依赖对历史业务数据代码的分析而开展的,其中除了正常的多表关联查询外,还有一个重要的改变,就是将原来存储在字段内容中的标志位单独提炼出来,形成数据库独立字段,这样才能更好的支持SQL查询。
最后是满足一些单客户的主要业务场景的分析,最后能够定期导出业务用的报表,显示本次数据仓库构建的价值的冰山一角。