大数据领域建模综述

一.典型的数据仓库建模方法论

1.ER模型

建模分为3个阶段:

高层模型:一个高度抽象的模型,描述的是主题以及主题之间的关系。

中层模型:细化主题的数据项

物理模型:物理存储。


2.维度模型

维度建模是从分析决策 的需求出发构建模型,为分析需求服务。星型,雪花模型分为如下几个阶段:

1.选择需要进行分析决策的业务过程。

2.选择粒度。

3.识别维表

4.选择事实。

3.Data Vault模型

Data Vault重点在于根据业务进行数据整合,弱化数据一致性。分为如下几个部分:

Hub 业务实体,Repository.

Link 连接Hub,表示Hub之间的关系

Satellite:Hub的详细内容,一个Hub由多个Satellite组成。

二.模型设计的基本原则

1.高内聚,低耦合

2.核心模型与扩展模型分离

3.公共处理逻辑下沉及单一

4.成本与性能平衡

5.数据可回滚

6.一致性:具备相同含义的字段在不同表的命名必须相同。

7.命名清晰,可理解。


三.模型的实施

1.Kimball维度实施过程

需要讨论需求分析,高层模型,详情模型和模型审查。

高层模型:目标是创建高层维度模型图,它是对业务过程中的维表和事实表的图形描述。确定维表创建初始化属性列表,为每个事实表创建提议度量。

详细模型:详细的维度建模过程是为高层模型填补确实的信息。

模型省察,再设计和验证

提交ETL设计和开发

2.Inmon模型实施过程

Inmon对数据模型的定位是:扮演着通往数据仓库其他部分的智能路线图的角色。由于数据仓库的建设不是一蹴而就,为了协调不同人的工作,有必要建立一个路线图--数据模型,描述数据仓库各部分是如何结合在一起的。

ERD(实体关系层) DIS(数据项集) 物理层(物理模型)

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容