什么是OLAP?
在线分析处理 (Online Analytical Processing: OLAP)是一类允许用户同时分析来自多个数据库系统的信息的软件。它是一种使分析师能够从不同角度提取和查看业务数据的技术。
分析师经常需要对数据进行分组、聚合和连接。数据挖掘中的这些 OLAP 操作是资源密集型的。使用 OLAP 可以预先计算和预先聚合数据,从而加快分析速度。
OLAP 数据库被分成一个或多个多维数据集。多维数据集的设计方式使得创建和查看报告变得容易。OLAP 代表在线分析处理。
在本教程中,您将学习-
- OLAP 多维数据集
- OLAP的基本分析操作
- OLAP 系统的类型
- ROLAP
- MOLAP
- 混合OLAP
- OLAP 的优势
- OLAP 的缺点
OLAP 多维数据集:
OLAP 概念的核心是 OLAP Cube。OLAP 多维数据集是一种为非常快速的数据分析而优化的数据结构。
OLAP Cube 由按维度分类的称为度量的数字事实组成。OLAP Cube 也称为超立方体。
通常,数据操作和分析使用简单的电子表格进行,其中数据值以行列格式排列。这是二维数据的理想选择。但是,OLAP 包含多维数据,数据通常来自不同且不相关的来源。使用电子表格不是最佳选择。多维数据集可以逻辑有序地存储和分析多维数据。
它是如何工作的?
数据仓库将从多个数据源和格式(如文本文件、Excel 表格、多媒体文件等)中提取信息。
提取的数据被清理和转换。数据被加载到 OLAP 服务器(或 OLAP 多维数据集)中,在那里预先计算信息以供进一步分析。
OLAP的基本分析操作
分析 OLAP 操作的四种类型是:
- Roll-up (汇总)
- Drill-down (挖掘)
- Slice and dice (切片与切块)
- Pivot/rotate(透视/旋转)
1) 汇总:
汇总也称为“合并”或“聚合”。可以通过 2 种方式执行 Roll-up 操作
- 缩小尺寸
- 攀登概念层次结构。概念层次结构是根据事物的顺序或级别对事物进行分组的系统。
考虑下图
- 在此示例中,城市 New jersey 和 Lost Angles 并卷入美国国家/地区
- 新泽西和洛杉矶的销售数字分别为 440 和 1560。上卷后变成 2000
- 在这个聚合过程中,数据是位置层次结构,从城市向上移动到国家。
- 在卷起过程中,至少需要去除一个或多个维度。在本例中,城市维度被删除。
2) 挖掘
在向下挖掘中,数据被分成更小的部分。它与汇总过程相反。它可以通过
- 向下移动概念层次结构
- 增加维度
考虑上图
- 季度 Q1 向下挖掘到 1 月、2 月和 3 月。相应的销售额也是寄存器。
- 在此示例中,添加了维度月份。
3)切片:
在这里,选择了一个维度,并创建了一个新的子立方体。
下图解释了切片操作是如何执行的:
- 使用 Q1 作为过滤器对维度时间进行切片。
- 一个新的立方体被完全创建。
切块:
此操作类似于切片。切割的不同之处在于您选择了 2 个或更多维度,从而创建了一个子立方体。
4) 透视
在透视中,您可以旋转数据轴以提供数据的替代表示。
在以下示例中,数据透视基于项目类型。
OLAP 系统的类型
OLAP 层次结构
OLAP 类型 | 解释 |
---|---|
关系OLAP(ROLAP): | ROLAP 是一个扩展的 RDBMS,带有多维数据映射来执行标准的关系操作。 |
多维 OLAP (MOLAP) | MOLAP 在多维数据中实现操作。 |
混合在线分析处理 (HOLAP) | 在 HOLAP 方法中,汇总的总数存储在多维数据库中,而详细数据存储在关系数据库中。这提供了 ROLAP 模型的数据效率和 MOLAP 模型的性能。 |
桌面OLAP(DOLAP) | 在桌面 OLAP 中,用户从本地或桌面上的数据库下载部分数据并进行分析。DOLAP 的部署成本相对较低,因为与其他 OLAP 系统相比,它提供的功能很少。 |
网络OLAP(WOLAP) | Web OLAP 是可通过 Web 浏览器访问的 OLAP 系统。WOLAP 是一个三层架构。它由三个组件组成:客户端、中间件和数据库服务器。 |
移动OLAP: | 移动 OLAP 帮助用户使用他们的移动设备访问和分析 OLAP 数据 |
空间OLAP: | SOLAP 旨在促进地理信息系统 (GIS) 中空间和非空间数据的管理 |
ROLAP
ROLAP 处理存在于关系数据库中的数据。事实和维度表存储为关系表。它还允许对数据进行多维分析,是增长最快的 OLAP。
ROLAP模型的优点:
- 数据效率高。它提供了高数据效率,因为查询性能和访问语言特别针对多维数据分析进行了优化。
- 可扩展性。这种类型的 OLAP 系统为管理大量数据提供了可扩展性,甚至在数据稳定增加时也是如此。
ROLAP 模型的缺点:
- 对资源的需求更高: ROLAP 需要对人力、软件和硬件资源的利用率高。
- 汇总数据限制。ROLAP 工具使用 SQL 进行聚合数据的所有计算。但是,对于处理计算没有设置限制。
- 查询性能慢。 与 MOLAP 相比,此模型中的查询性能较慢
MOLAP
MOLAP 使用基于数组的多维存储引擎来显示数据的多维视图。基本上,他们使用 OLAP 多维数据集。
混合OLAP
混合 OLAP 是 ROLAP 和 MOLAP 的混合。它提供了 MOLAP 的快速计算和 ROLAP 的更高可扩展性。HOLAP 使用两个数据库。
- 聚合或计算的数据存储在多维 OLAP 多维数据集中
- 详细信息存储在关系数据库中。
混合 OLAP 的好处:
- 这种 OLAP 有助于节省磁盘空间,并且它也保持紧凑,这有助于避免与访问速度和便利性相关的问题。
- 混合 HOLAP 使用多维数据集技术,可以为所有类型的数据提供更快的性能。
- ROLAP 是即时更新的,HOLAP 用户可以访问这个实时即时更新的数据。MOLAP 带来了数据的清理和转换,从而提高了数据的相关性。这带来了两全其美。
混合OLAP的缺点:
- 更高的复杂度: HOLAP 系统的主要缺点是它同时支持 ROLAP 和 MOLAP 工具和应用程序。因此,它非常复杂。
- 潜在的重叠:重叠的可能性更高,尤其是它们的功能。
OLAP 的优势
- OLAP 是适用于所有类型业务的平台,包括计划、预算、报告和分析。
- OLAP 多维数据集中的信息和计算是一致的。这是一个至关重要的好处。
- 快速创建和分析“假设”场景
- 轻松搜索 OLAP 数据库以获取广泛或特定的术语。
- OLAP 为业务建模工具、数据挖掘工具、性能报告工具提供了构建块。
- 允许用户按各种维度、度量和过滤器对立方体数据进行切片和切块。
- 它有利于分析时间序列。
- 使用 OLAP 可以轻松找到一些集群和异常值。
- 它是一个强大的可视化在线分析过程系统,可提供更快的响应时间
OLAP 的缺点
- OLAP 需要将数据组织成星型或雪花模式。这些模式实施和管理起来很复杂
- 单个 OLAP 多维数据集中不能有大量维度
- OLAP 系统无法访问事务数据。
- OLAP 多维数据集中的任何修改都需要对多维数据集进行完整更新。这是一个耗时的过程
概括:
- 数据仓库中的 OLAP 是一种使分析师能够从不同角度提取和查看业务数据的技术。
- OLAP 概念的核心是一个 OLAP Cube。
- 各种业务应用程序和其他数据操作都需要使用 OLAP Cube。
- 数据仓库中有五种主要的分析型 OLAP 操作:1) 汇总 2) 挖掘 3) 切片 4) 切块和 5) 透视
- 三种广泛使用的 OLAP 系统是 MOLAP、ROLAP 和混合 OLAP。
- 桌面 OLAP、Web OLAP 和移动 OLAP 是其他一些类型的 OLAP 系统。