前面已经讲到了数据仓库中的粒度有关概念,但是当我们在具体的实时过程中应该怎样去确定在建数据的粒度呢,书中也给出了一些指导意见:
- 一、粗略估计将来数据仓库中数据行数和所需的DASD(直接存取存储设备)数
- 二、规划过程的输入:估计出来的行数和DASD数就是我们做这次规划的依据数据。
- 三、溢出存储器中的数据
- 1、将上面估计出来的总行数与下面的表格进行比较,可得出相应的动作
2、数据仓库中的数据增长得十分迅速,不经常使用的数据有时称为睡眠数据或者不活跃数据。而有些数据随着时间的流逝而变旧没人使用,此时将这些数据分离并存储到其他存储介质上是是非有意义的。
3、那么要实现上述的过程,就需要一种监控工具来监控数据的使用情况,以确定哪些数据是活跃的哪些是睡眠的;同时,睡眠数据在海量存储器和数据仓库中的移动也需要一个专门软件(跨介质存储管理器CMSM)的支持。
- 四、确定粒度级别
这一步的开始需要一定的常识和直觉,所以这一步要做的就是进行一次合理的推测。为什么要这样做呢?对于轻度汇总的数据,为了确定合适的粒度级别,唯一可行的方法是将数据放到最终用户的面前,只有当最终用户实际看到了数据之后,才能做出正确的回答,然后在返回去改进,这是一个循环往复的过程。如下图所示:
- 五、选择数据仓库中的数据粒度的另一个重要的考虑因素是理解数据集市将会需要的数据粒度。填充数据集市是数据仓库的工作。不同的数据集市需要不同地看待数据。数据集市看待数据的方式之一是通过粒度的形式。
存在于数据仓库中的数据粒度,必须是任何数据集市所需要的数据中最小粒度。换句话说,为了合适地填充所有的数据集市,数据仓库中的数据必须在一个所有数据集市所需要的最低水平上。数据仓库中的数据于是成为DSS分析环境的最小公分母。
~本文为《Building the Data Warehouse, 4th Edition 》第四章第一次读书笔记