【数据挖掘】数据仓库

1. 数据仓库:面向主题的、集成的、时变的、非易失的数据集合,支持管理者的决策模式。

面向主题:关注决策者建模分析,其中不包含日常操作和事务处理,并排除对决策无用的数据。

集成:将多个异构数据源集成在一起,确保命名、编码结构、属性度量一致。

时变:从历史角度(5-10年)提供信息,并显示或隐式包含时间元素。

非易失:无需事务处理、恢复、并发机制,只需数据初始化装入和数据访问。

2. 在传统数据库上建立包装程序和集成程序(查询驱动Query-Driven),由两个步骤完成:

① 提交查询,元数据字典对查询进行转换 => 异构站点进行查询

② 将查询发送到局部查询处理器,再将返回结果集成作为全局回答。

缺点:

① 复杂的信息过滤和集成处理

② 与局部数据源上的处理操作竞争资源

③ 效率低,对于频繁、需聚集的操作开销较大

3. 数据仓库 (更新驱动Update-Driven)

① 将多个异构数据源预先集成,并存储至数据仓库,可直接进行查询、分析

② 内部数据是历史数据,不影响局部数据源的操作,支持复杂多维查询

4. OLTP(On-Line Transaction Processing)联机事务处理:面向顾客和工作人员;主要用于事务查询处理;管理当前最新的数据;面向应用的模型:E-R模型;局部企业数据;原子事务,需并发控制和恢复机制。

    OLAP(On-Line Analytical Processing)联机分析处理:面向市场和决策者;主要用于数据分析;管理历史数据;面向主题的模型:星形/雪花形模型;跨企业数据;只读操作,复杂查询。

5. 从数据库中分历数据仓库的原因:提高两个系统的性能。由于二者查询方式不同,在数据库处理OLAP会大大降低系统操作性能。数据库中的并发控制和恢复机制在应用于OLAP会危害并行事务运行,降低OLTP吞吐量。数据库中存储数据不够完整,无法用于决策。

6. 数据仓库的三层结构:

① 底层:数据仓库服务器,通常是关系数据库系统

② 中间层:OLAP服务器

③ 顶层:客户,包含前端工具如查询和报表等

7. 数据仓库模型:企业仓库、数据集市、虚拟仓库

8. 多维数据模型:星形、雪花形、事实星座。多维数据模型的核心:数据立方体。

9. 概念分层:将属性或维的值组织成渐进的抽象层。

10. OLAP操作:

上卷(Roll-up):沿一个维度的概念分层向上攀升/维归约进行聚集(将一个维度/多个维度从立方体中删除)

下钻(Drill-down):沿维的概念分层向下或引入附加维。(可通过添加新的维来实现)

切片(Slice):在一个维进行选择,形成片状子立方体

切块(Lice):在两个或多个维进行选择,形成块状子立方体

转轴(Pivot)/旋转(Rotate)

钻过(Drill-across):执行涉及多个事实表的查询

钻透(Drill-through):使用关系SQL机制,钻透到数据立方体底层到后端关系表

11. 数据仓库的实现

不物化(No Materialization):不预先进行计算,无需额外空间,性能较差

完全物化(Full Materialization):预先计算数据立方体格中的所有方体,需要大量额外空间,性能好

部分物化(Partial Materialization):选择性计算格中的方体子集或小立方体,需要部分额外空间,性能较好

12. 位图索引(Bitmap Indexing):对于基数较小的值域很有用,且位运算运行速度快,将字符串用二进位表示,大大降低存储空间和I/O开销。对于基数较高的值域需要进行压缩。

13. 连接索引(Join Indexing):登记来自多个关系的可连接行,降低OLAP连接操作的代价。

14. 数据仓库元数据:定义仓库对象的数据。元数据提供关于仓库结构、数据历史、汇总使用的算法、从元数据到仓库形式的映射、系统性能、商务术语和问题等细节。

15. OLAP服务器:

关系OLAP(ROLAP):使用扩充的关系DBMS,把多维数据上的OLAP操作映射成标准的关系操作

多维OLAP(MOLAP):把多维数据视图映射到数组结构

混合OLAP(HOLAP):结合以上二者。

16. 数据仓库用于信息处理、分析处理、知识挖掘。基于OLAP的数据挖掘称为多维数据挖掘或OLAM,强调OLAP挖掘的交互式和探测式。

17. 数据仓库包含D个维,每个维有L个层,则该立方体包含L^D个方体。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容