数据集市
数据集市(Data Mart),也叫数据市场,为满足特定的部门或者用户需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。
数据集市,迎合了专业用户群体的特殊需求,包括分析、内容、表现,以及易用性方面。
数据集市,是企业级数据仓库的一个子集,主要面向部门级业务,只面向某个特定的主题。
来源
数据集市数据来源于企业范围的数据库、专业的数据仓库。
数据仓库与数据集市的区别
指标 | 数据仓库 | 数据集市 |
---|---|---|
数据来源 | 遗留系统、外部数据 | 数据仓库 |
范围 | 企业级 | 部门级或工作组级 |
主题 | 企业主题 | 部门或特殊的分析主题 |
数据粒度 | 最细的粒度 | 较粗的粒度 |
数据结构 | 规范化结构、星型模型、雪花模型 | 星型模型、雪花模型 |
历史数据 | 大量的历史数据 | 适度的历史数据 |
优化 | 处理海量数据/数据探索 | 便于访问和分析/快速查询 |
索引 | 高度索引 | 高度索引 |
特征
- 规模小
- 特定的应用
- 面向部门
- 由业务部门定义、设计和开发
- 业务部门管理和维护
- 快速实现
- 购买较便宜
- 投资快速回收
- 工具集的紧密集成
- 提供更详细的、预先存在的、数据仓库的摘要子集
- 可升级到完整的数据仓库
数据结构
通常为星型结构或雪花结构。一个星型结构包括:事实表和维表。
事实表
事实表描述数据集市中最密集的数据。例如,呼叫中心的呼叫数据;银行中自动柜员机的数据;零售业的销售数据、库存数据等;
维表
维有围绕着事实表建立,通过外键与事实表相连。
数据集市类型
独立型
独立型数据集市的数据来自于操作型数据库,是为了满足特殊用户而建立的一种分析型环境。
优点:
- 开发周期较短
- 比较灵活
缺点:
- 脱离数据仓库
- 容易形成信息孤岛
- 不能以全局的视角去分析数据
从属型
从属型数据集市的数据来自于企业的数据仓库。
优点:
- 体系结构比独立型数据集市更稳定
- 提高了数据分析的质量
- 保证了数据一致性
缺点:
- 开发周期较长