一.典型的数据仓库建模方法论
1.ER模型
建模分为3个阶段:
高层模型:一个高度抽象的模型,描述的是主题以及主题之间的关系。
中层模型:细化主题的数据项
物理模型:物理存储。
2.维度模型
维度建模是从分析决策 的需求出发构建模型,为分析需求服务。星型,雪花模型分为如下几个阶段:
1.选择需要进行分析决策的业务过程。
2.选择粒度。
3.识别维表
4.选择事实。
3.Data Vault模型
Data Vault重点在于根据业务进行数据整合,弱化数据一致性。分为如下几个部分:
Hub 业务实体,Repository.
Link 连接Hub,表示Hub之间的关系
Satellite:Hub的详细内容,一个Hub由多个Satellite组成。
二.模型设计的基本原则
1.高内聚,低耦合
2.核心模型与扩展模型分离
3.公共处理逻辑下沉及单一
4.成本与性能平衡
5.数据可回滚
6.一致性:具备相同含义的字段在不同表的命名必须相同。
7.命名清晰,可理解。
三.模型的实施
1.Kimball维度实施过程
需要讨论需求分析,高层模型,详情模型和模型审查。
高层模型:目标是创建高层维度模型图,它是对业务过程中的维表和事实表的图形描述。确定维表创建初始化属性列表,为每个事实表创建提议度量。
详细模型:详细的维度建模过程是为高层模型填补确实的信息。
模型省察,再设计和验证
提交ETL设计和开发
2.Inmon模型实施过程
Inmon对数据模型的定位是:扮演着通往数据仓库其他部分的智能路线图的角色。由于数据仓库的建设不是一蹴而就,为了协调不同人的工作,有必要建立一个路线图--数据模型,描述数据仓库各部分是如何结合在一起的。
ERD(实体关系层) DIS(数据项集) 物理层(物理模型)