一,数据仓库计数产生的背景
1.1960s:数据采集,数据库创建阶段
(1) 集中于原始文件的处理
(2)层次数据库和网状数据库
1970s:关系数据库管理系统
关系数据模型和关系数据库管理系统
E-R模型,SQL语言,查询处理和优化,OLTP(恢复和并发技术)
1990s:数据仓库,联机分析处理和数据挖掘
数据仓库,联机分析处理和数据挖掘,多媒体数据库,Web数据库,Data Stream
二,现有数据库系统的侧重点
现有数据库系统,主要用于事务处理
强调多用户并发环境,数据的一致性,完整性
三,信息化建设的趋势
发展趋势:数据集中化,业务综合化,管理扁平化,决策科学化
四,现有数据库系统处理分析型应用存在的问题
1.数据可信性
(1)数据没有同一时间基准
(2)算法不同
(3)多次抽取,扩大上述两个问题
(4)外部数据进入系统后,失去“身份”
(5)开始时就不是同一个公共的数据源
2.生产率
生产一个企业报表要经过:
(1)获得源数据
(2)定位和分析数据:由于同名不同义,同义不同名,很难准确定位和分析,可能造成进一步的混乱
(3)把数据加工成报告
要写许多程序,每个程序必须客户化
程序会涉及公司具有的各种技术
由于定位数据困难,检索所要的数据时一种很麻烦的事
(4)完成任务需要很长时间
定位数据+获取数据+集成报告,完成任务所需要时间较长
每份报告自需求不同,因此每份报告所需要的时间都很长
3.不可能把数据转换成信息
(1)涉及大量应用:存储应用,贷款,信托,而这些应用并未集成
(2)没有足够的历史数据
(3)数据不一致
(4)外部数据和非结构化数据
4.数据动态集成问题
5.历史数据问题
6.数据综合问题:非细节数据,多种程度的综合
五,操作型环境和分析型环境
1.不同需求,要求将操作型环境和分析型环境相分离
(1)在操作型环境中支持分析应用太困难,太复杂
(2)操作型环境不支持域之间的联系,仅仅支持表之间的连接
(3)不同数据环境要求从数据组织和操作上进行工作。
2.两种数据的区别
3.提升现有信息
(1)企业范围内的信息共享
(2)准确,一致的集成数据
(3)面向整个企业和最终用户,针对分析需要,进行数据重组,形成一套全新的,相对完整的数据视图。
4.数据仓库要解决的基本问题
(1)全局范围内统一数据视图
数据内容:数据完整性,数据准确性,数据一致性
数据组织:面向分析决策。
(2)数据仓库的建立
需要针对多个数据源的数据集成
考虑“重要”的业务分析问题
选择合适的数据源
数据仓库系统的建设永无止境
数据仓库系统的建设是一项工程,同时也是一个过程。
六,什么是数据仓库
1,数据仓库的定义:是一个面向主题的,集成的,相对稳定的,反映历史变化的数据集合,用于支持管理决策和信息的全局共享。
2.对数据仓库的理解:
(1)数据仓库用于支持管理和决策,面向分析数据处理,它不同于企业现有的面向交易的操作型数据库
(2)数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据
3.数据仓库的特点
(1)面向主题: 操作型数据库是面向特殊处理任务,进行组织,由各个不同的系统独立维护
数据仓库是面向不同的主题域进行组织。一个主题通常于多个操作型信息系统相关
(i)面向主题的数据组织
主题:宏观分析领域所涉及的分析对象
面向主题的数据组织方式:在较高的层次上对分析对象的数据的一个完整,一致的描述
采用面向事务进行数据组织特点是:
充分考虑企业的部门组织结构和业务活动
反映企业内部数据流动情况,业务处理的数据流程
与业务处理流程中的单据,票证,文档有良好的对应
数据与应用有一定的对应
(2)面向主题的数据组织的特点
各个主题有完整,一致的信息内容,便于在此基础上做分析处理
主题之间有重叠的内容,反映主题间的联系
重叠是逻辑上的,不是物理上的;重叠仅在细节层
各主题的综合方式不同
主题域应该具有独立性,完备性
独立性:有明确界限,数据是否属于该主题
完备性:对该主题进行分析所涉及的内容均要在主题域内
(3)面向主题数据组织的实现
(️️i)多个表,公共码键(把各个表统一联系起来),但同一主题的表可存放在不同介质上
(ii)综合信息,多个层次
(iii)面向主题数据组织方式独立于数据的事务处理逻辑。即可以支持分析型环境数据,又可用于ODS(操作数据存储)系统
(2)数据仓库的特点:集成的
操作型数据库:面向特殊应用
每一个数据库面向特定的应用,各类应用之间相互独立
系统的发展经历一个长期的过程
数据仓库:集成的
数据仓库中的数据从建立时开始,面向整个企业的分析处理,数据仓库中的数据是已经集成了的,消除了数据的不一致型
在某个时间点完成设计,实现需要经历一个长期的不断迭代的过程
(i)消除冲突:不一致,同名异义,异名同义,单位不统一等,需要进行数据清理(因为来源于不同的子系统,与不同的主要逻辑捆绑)
(ii)数据的综合和计算:可在抽取数据时,也可以在进入DW后
(3)数据仓库的特点:相对稳定的
操作型数据库—实时更新:随时更新数据根据需要进行变化,并不是按照一定周期进行修改
数据仓库—在某个时间点保持不变:定期加载,加载后的数据极少更新,并不意味着数据仓库的数据不更新
一般不修改,只追加;过期限的数据可从DW中移走
对DW,主要是查询DWMS比DBMS要简单
可不考虑并发控制
要考虑性能(因为查询数据量大)和界面友好(对高层管理者)
(4)数据仓库的特点:反映历史变化
操作型数据库:主要关心当前数据
数据仓库:通常关心历史数据
码键包含时间项
不断增加新的数据内容
删去过时的数据
与时间有关的综合数据:随时间变化而重新组合
七,数据库技术与相关技术的比较和联系
1.数据库技术和数据仓库技术
(1)数据库技术在系统功能和性能需求
强调的是多用户环境下如何针对并发用户的增删改操作,保证数据的一致性和可恢复性,并发用户的吞吐量为数据库管理系统的重要性能指标
(2)数据仓库技术在系统功能和性能需求
强调的是大数据量环境下的高效,快速查询,查询的吞吐量为数据仓库管理系统的重要性能指标
2.数据的抽取,转化和加载
3.数据集成是大问题
数据仓库是多个数据源数据的综合
数据必须转换成一个一致的格式
对于一个典型的数据仓库系统建设项目中,数据集成工作通常占到整个系统建设的80%
4.集成困难的原因:
缺乏源数据或者根本不存在
数据质量很差
存在大量的空缺值
存在大量的同名异义或者同义异名的问题
语义不一致
八,数据集成的方法:MQS
MQS:Mediated Query System—查询驱动方法
其目标是实现对信息智能,能动的使用
1.Mediator是一个软件模块,实现对数据的抽象与表示,具有相当的智能。
2.Mediator具有某些数据集的知识,为高层应用服务。
3.Mediator本身还可以进一步抽象成MetaMediator,来描述关于Mediator的信息
九,数据仓库的数据集成
十,联邦数据库
1.数据仓库
(1)对于所有数据创建一个备份
(2)基于备份上重构的数据,执行分析查询
2.联邦数据库
(1)从数据源中检索所需要的数据一回答各类查询
十一,数据仓库与联邦数据库
1.数据仓库
(1)不需要冗余数据的拷贝
(2)查询的结果反映所涉及数据的实时情况
(3)安全策略更加方便
2.联邦数据库
(1)分析查询对于事务系统增加了额外的“Load”数据的开销
(2)查询优化很难做得很好
(3)历史数据可能不存在或者不可用
(4)“wrappers”的功能很复杂,需要在分析服务器和数据源系统之间进行沟通
3.在实践中数据仓库方法变得更加普通
(1)更好的性能
(2)更低的复杂度
(3)对于分析来说,缺少部分实时的数据是可以接受的