1. 数据仓库:面向主题的、集成的、时变的、非易失的数据集合,支持管理者的决策模式。
面向主题:关注决策者建模分析,其中不包含日常操作和事务处理,并排除对决策无用的数据。
集成:将多个异构数据源集成在一起,确保命名、编码结构、属性度量一致。
时变:从历史角度(5-10年)提供信息,并显示或隐式包含时间元素。
非易失:无需事务处理、恢复、并发机制,只需数据初始化装入和数据访问。
2. 在传统数据库上建立包装程序和集成程序(查询驱动Query-Driven),由两个步骤完成:
① 提交查询,元数据字典对查询进行转换 => 异构站点进行查询
② 将查询发送到局部查询处理器,再将返回结果集成作为全局回答。
缺点:
① 复杂的信息过滤和集成处理
② 与局部数据源上的处理操作竞争资源
③ 效率低,对于频繁、需聚集的操作开销较大
3. 数据仓库 (更新驱动Update-Driven)
① 将多个异构数据源预先集成,并存储至数据仓库,可直接进行查询、分析
② 内部数据是历史数据,不影响局部数据源的操作,支持复杂多维查询
4. OLTP(On-Line Transaction Processing)联机事务处理:面向顾客和工作人员;主要用于事务查询处理;管理当前最新的数据;面向应用的模型:E-R模型;局部企业数据;原子事务,需并发控制和恢复机制。
OLAP(On-Line Analytical Processing)联机分析处理:面向市场和决策者;主要用于数据分析;管理历史数据;面向主题的模型:星形/雪花形模型;跨企业数据;只读操作,复杂查询。
5. 从数据库中分历数据仓库的原因:提高两个系统的性能。由于二者查询方式不同,在数据库处理OLAP会大大降低系统操作性能。数据库中的并发控制和恢复机制在应用于OLAP会危害并行事务运行,降低OLTP吞吐量。数据库中存储数据不够完整,无法用于决策。
6. 数据仓库的三层结构:
① 底层:数据仓库服务器,通常是关系数据库系统
② 中间层:OLAP服务器
③ 顶层:客户,包含前端工具如查询和报表等
7. 数据仓库模型:企业仓库、数据集市、虚拟仓库
8. 多维数据模型:星形、雪花形、事实星座。多维数据模型的核心:数据立方体。
9. 概念分层:将属性或维的值组织成渐进的抽象层。
10. OLAP操作:
上卷(Roll-up):沿一个维度的概念分层向上攀升/维归约进行聚集(将一个维度/多个维度从立方体中删除)
下钻(Drill-down):沿维的概念分层向下或引入附加维。(可通过添加新的维来实现)
切片(Slice):在一个维进行选择,形成片状子立方体
切块(Lice):在两个或多个维进行选择,形成块状子立方体
转轴(Pivot)/旋转(Rotate)
钻过(Drill-across):执行涉及多个事实表的查询
钻透(Drill-through):使用关系SQL机制,钻透到数据立方体底层到后端关系表
11. 数据仓库的实现
不物化(No Materialization):不预先进行计算,无需额外空间,性能较差
完全物化(Full Materialization):预先计算数据立方体格中的所有方体,需要大量额外空间,性能好
部分物化(Partial Materialization):选择性计算格中的方体子集或小立方体,需要部分额外空间,性能较好
12. 位图索引(Bitmap Indexing):对于基数较小的值域很有用,且位运算运行速度快,将字符串用二进位表示,大大降低存储空间和I/O开销。对于基数较高的值域需要进行压缩。
13. 连接索引(Join Indexing):登记来自多个关系的可连接行,降低OLAP连接操作的代价。
14. 数据仓库元数据:定义仓库对象的数据。元数据提供关于仓库结构、数据历史、汇总使用的算法、从元数据到仓库形式的映射、系统性能、商务术语和问题等细节。
15. OLAP服务器:
① 关系OLAP(ROLAP):使用扩充的关系DBMS,把多维数据上的OLAP操作映射成标准的关系操作
② 多维OLAP(MOLAP):把多维数据视图映射到数组结构
③ 混合OLAP(HOLAP):结合以上二者。
16. 数据仓库用于信息处理、分析处理、知识挖掘。基于OLAP的数据挖掘称为多维数据挖掘或OLAM,强调OLAP挖掘的交互式和探测式。
17. 数据仓库包含个维,每个维有
个层,则该立方体包含
个方体。