数据仓库和商务智能(DWH + BI ----> Data Lake + Al)
1. 介绍
DW/BI
数据仓库诞生于1980年代,随着技术的发展和决策支持系统的真正普及,其目的是减少数据冗余,提高一致性并允许组织做出更好的决策
2. 业务驱动因素
数据仓库建设的主要驱动力是运营支持智能、合规需求和商务智能活动
3. 目标和原则
目标
- 支持商务智能活动
- 赋能商业分析和高效决策
- 基于数据洞察寻找创新方法
原则
- 聚焦业务目标。确保数据仓库用于组织最优先级的业务并解决业务问题。
- 以终为始。让业务优先级和最终交付的数据范围驱动数据仓库内容的创建。
- 全局性的思考和设计,局部性的行动和建设。让最终的愿景指导体系架构,通过集中项目快递迭代构建增量交付,从而实现更直接的投资回报
- 总结并持续优化,而不是一开始就这样。以原始数据为基础,通过汇总和聚合来满足需求并确保性能,但不替换细节数据。
- 提升透明度和自助服务。上下文信息越丰富,数据消费者越能从数据中获取更多数据价值。向利益相关方公开集成的数据及其流程信息
- 与数据仓库一起建立元数据。数据仓库成功的关键是能准确解释数据
- 协同。与其他数据活动协作,尤其是数据治理、数据质量和元数据管理活动
- 不要千篇一律。为每种数据消费者提供正确的工具和产品。
4. 基本概念
商务智能
- 商务智能指一种理解组织诉求和寻找机会的数据分析活动。数据分析的结果用来提高组织决策的成功率
- 商务智能指支持这类数据分析活动的技术集合。决策支持工具、商务智能工具不断进化,促成了数据查询、数据挖掘、统计分析、报表分析、场景建模、数据可视化及仪表板等一系列应用。
数据仓库
- 一个集成的决策支持库和与之相关的用于收集、清理、转换和存储来自各种操作和外部源数据的软件程序
- 为了支持历史的、分析类的和商务智能的需求,数据仓库建设还会包括相依赖的数据集市。
数据仓库建设
数据仓库建设指数据仓库中数据的抽取、清洗、转换、控制、加载等操作过程。数据仓库建设流程的重点,是通过强制业务规则、维护适当的业务数据关系,在运营的数据上实现一个集成的、历史的业务环境。数据仓库建设还包括与元数据资料库交互的流程。
数据仓库建设的方法
- 仓库存储来自其他系统的数据
- 存储行为包括以增加数据价值的方式组织数据。
- 仓库使数据可以被访问和用于分析。
- 组织建立仓库是因为他们需要向授权的利益相关者提供可靠的综合数据。
- 仓库数据有很多用途,从支持工作流程到运营管理再到预测分析。
企业信息工厂(IMMON)
企业信息工厂
数据仓库和业务系统区别:
- 面向主题的。数据仓库是基于主要业务实体组织的,而不是关注功能或应用
- 整合的。数据仓库中的数据是统一的、内聚的。
- 随时间变化的。数据仓库存储的是某个时间段的数据
- 稳定的。在数据仓库中,数据记录不会像在业务系统里那样频繁更新
- 聚合数据和明细数据。数据仓库中的数据包括原子的交易明细,也包括汇总后的数据
- 历史的。业务系统的重心是当前的数据。数据仓库还包括历史数据,通常要消耗很大的存储空间。
CIF(企业信息工厂)组成包括:
- 应用程序。应用程序处理业务流程
- 数据暂存区。介于业务系统源数据库和目标数据仓库之间的一个数据库。暂存区是用来抽取、转换和加载的地方,对最终用户透明
- 集成和转换。在集成层,来自不同数据源的数据被转换整合为数仓和ODS里的标准企业模型
- 操作型数据存储(ODS)。操作型数据存储是业务数据的集成数据库,数据可能直接来源于应用系统,也可能来自其他数据库。
- 数据集市。数据集市为后续的的数据分析提供数据
- 操作型数据集市(OpDM)。操作型数据集市是专注于运营支持的数据集市。他直接从操作型数据存储而不是从数据仓库获取数据。具有与操作型数据存储相同的特性。
- 数据仓库。数据仓库为企业数据提供了一个统一的整合入口,以支持管理决策、战略分析和规划。数据从应用程序系统和操作型数据存储流入数据仓库,然后流到数据集市,这种流动通常只是单向的。
- 运营报告。运营报告从数据存储中输出
- 参考数据、主数据和外部数据。
数据仓库和数据集市的数据与应用程序中的数据不同:
- 数据的组织形式是按主题域而不是按功能需要
- 数据是整合的数据,而不是“孤立”的烟囱数据
- 数据是随时间变化的系列数据,而非仅当前时间的值
- 数据在数据仓库中的延迟避灾应用程序中高
- 数据仓库中提供的历史数据比应用程序中提供的历史数据多。
多维数据仓库(Kimball)
Kimball将数据仓库简单定义为“专为查询和分析而构建的事务数据的副本”。多维模型旨在方便数据使用者解释和使用数据,同时还支持更优的查询性能。多维模型通常称为星形模型,由事实表和维度表组成。
数据仓库架构组件
BW数据仓库
架构图
加载处理的方式
- 历史数据
- 批量变更数据捕获
- 准实时和实时数据加载
5. 活动
理解需求
数据仓库/商务智能项目需要描述应该包括业务领域及其范围内流程的完整业务背景。在收集需求是,首先,要考虑业务目标和业务战略,确定业务领域并框定范围;然后,确定并对相关的业务人员进行访谈,了解他们想做些什么和这么做的原因,记录他们当下关心的具体问题和想要询问的数据,以及他们如何区分和分类的重要信息。
定义和维护数据仓库/商务智能架构
开发数据仓库和数据集市
加载数据仓库
实施商务智能产品组合
维护数据产品
5. 工具
元数据存储库
数据集成工具
商务智能工具的类型
6. 方法
7. 实施指南
8. 数据仓库/商务智能治理
业务接受度
- 概念数据模型。组织的核心信息是什么?关键的业务概念是什么?它们是如何相互关联的?
- 数据质量反馈循环。如何识别和修正问题数据?系统所有者如何了解问题是怎么产生的?怎样对解决问题负责?对数据仓库的数据集成过程中引起的问题进行补救的过程是什么?
- 端到端元数据。架构如何支持集成的端到端元数据流?特别是,在架构设计时是否理解上下文环境的意义?数据消费者如何回答诸如“这个报表的含义是什么”或“这个指标是什么意思”等基本问题。
- 端到端可验证数据血缘。业务用户公开访问的项目是否能以自动化的、可自维护的方式追溯到源系统?所有数据是否都记录在案?
客户/用户满意度
服务水平协议
报表策略
度量指标
- 使用指标
数据仓库中使用的度量指标通常包括注册用户数、连接用户数或并发用户数。允许多个分析指标,如审核用户、以生成的用户查询量和使用用户 - 主题域覆盖率
主题域覆盖百分比衡量每个部门访问仓库的程度,还强调哪些数据是跨部门共享的,哪些还不是但也可能是共享的。将操作源映射到目标是另一种自然扩展,它强调和验证已经收集的血缘关系和元数据,并以提供渗透分析,确定哪些部门在使用源系统分析。通过减少对大量使用的源对象的更改,有助于将工作调整集中在那些具有高影响力的分析查询上。 - 响应时间和性能指标
大多数查询工具会测量影响时间。通过工具检索影响或性能指标。此数据指标代表用户的数量和类型。数据加载过程以原始格式收集每个数据产品的加载时间。大多数工具将在日志或存储库中为提供给用户的对象保留查询和刷新纪录及提取时间等。