
image.png
’## 数仓特征:
- 面前主题:数据分析问题,一个主题对应一个分析领域,如:用户行为
- 集成:面向企业级的数据,数据具有完整性,一致性,精准性
- 变化:相对历史变化
- 稳定:相对固定时间段数据稳定,无非幂等性操作
相对业务数据库区别
| name | 数仓 | 业务数据 |
|---|---|---|
| 状态 | 相对历史变化,当前稳定 | 实时变化 |
| 设计思想 | 违范式,冗余 | 范式,避免冗余 |
| 应用场景 | 面向分析 | 面向业务交易 |
| 处理量 | 高吞吐,有延迟 | 高并发,低延迟 |
建模步骤
业务模型 -----> 领域模型 ------> 逻辑模型 -------> 物理模型
- 业务模型:对实际业务进行切切分,分解,如:电商网站,分解为交易模块,展示模块,物流模块
- 领域模型:问自己5维度W,Who,Where,What,When,WHY
- 逻辑模型:进行事实,度量,维度,实体间关系的构建
- 物理模型: 具体数据库的字段类型,长度,约束等
建模方法
-
三范式建模
- 1NF 属性不可分,属性原子性
- 2NF 非主属性完全依赖主属性
- 3NF 不存在传递依赖 -
维度建模
- 星型模型维度有冗余
- 雪花模型做更细粒度的维度 -
实体建模
将现实世界映射为:
- 实体
- 事件
- 说明
建模方法选择
业务模型,领域模型阶段使用实体建模,基于事件分析
逻辑模型阶段使用维度建模
维度建模方法:
- 选择业务过程
- 声明粒度
- 确定维度
- 确定事实表
动词:事实表, 如: 启动App,观看视频
名词:维度,如:地域,日期