数仓初探

image.png

’## 数仓特征:

  • 面前主题:数据分析问题,一个主题对应一个分析领域,如:用户行为
  • 集成:面向企业级的数据,数据具有完整性,一致性,精准性
  • 变化:相对历史变化
  • 稳定:相对固定时间段数据稳定,无非幂等性操作

相对业务数据库区别

name 数仓 业务数据
状态 相对历史变化,当前稳定 实时变化
设计思想 违范式,冗余 范式,避免冗余
应用场景 面向分析 面向业务交易
处理量 高吞吐,有延迟 高并发,低延迟

建模步骤

业务模型 -----> 领域模型 ------> 逻辑模型 -------> 物理模型

  • 业务模型:对实际业务进行切切分,分解,如:电商网站,分解为交易模块,展示模块,物流模块
  • 领域模型:问自己5维度W,Who,Where,What,When,WHY
  • 逻辑模型:进行事实,度量,维度,实体间关系的构建
  • 物理模型: 具体数据库的字段类型,长度,约束等

建模方法

  • 三范式建模
    - 1NF 属性不可分,属性原子性
    - 2NF 非主属性完全依赖主属性
    - 3NF 不存在传递依赖
  • 维度建模
    - 星型模型维度有冗余
    - 雪花模型做更细粒度的维度
  • 实体建模
    将现实世界映射为:
    - 实体
    - 事件
    - 说明

建模方法选择

业务模型,领域模型阶段使用实体建模,基于事件分析
逻辑模型阶段使用维度建模

维度建模方法:

  • 选择业务过程
  • 声明粒度
  • 确定维度
  • 确定事实表

动词:事实表, 如: 启动App,观看视频
名词:维度,如:地域,日期

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容