1.基础概念
1.1名词解释:
DSS:决策支持系统,他是MIS 管理信息系统演变而来
DBMS::数据库管理系统
DASD:直接存储存储设备
OLTP:在线事务处理
OLAP:在线分析处理
抽取系统:给定一些参数,在文件中搜索满足的参数条件的数据,然后将这些数据拖到别处
CIF:企业信息源
EIS:主管信息系统
SDLC:系统开发生命周期
1.2决策系统的演化阶段:
1960年:此时处于计算机和信息系统的发展的初期,这一时期应用的特点是主文件是存储于廉价的大量数据的磁带上,只能顺序访问,也就是说可能只需要访问5%的数据,但你不得不把所有记录都遍历一遍,久而久之,就出现了大量的冗余数据,直到1970年第二阶段的出现
1970年:磁盘存储技术的出现.一种新的存储技术的出现,就是磁盘存储,他与之前的根本区别在要访问第N条数据,不需要从1开始遍历,而是只要知道第N条数据的地址就好,伴随而来的就是DBMS的出现,他的目的是更方便的在DASD上存储数据,因此,人们可以用计算机来处理高性能的在线事务处理
1980:pc的出现以及第四代编程语言,使得用户可以直接控制数据和系统,而非专职数据处理人员来做,在线处理系统也演变成MIS,也就是如今的dss,用来管理决策的处理过程,但是此时的数据和技术采用的是排他的方式驱动详细的操作性决策,也就是说,数据库不能同时用于操作型事务处理和分析处理
1985:抽取系统的出现:解决了性能和控制这两个问题
性能:抽取系统将数据从高性能的在线事务处理环境中转移出来,这时需要对数据进行分析的时候,性能就不存在冲突了
控制:当数据从操作型事务处理环境中转移出来以后,数据的控制方式就发生了变化,最终用户就拥有了这些数据
之后,随着抽取处理方式的普及,这种模式以放任自流的态度来处理整个软硬件系统结构,就会失控,出现蜘蛛网样的自然演化式体系结构
1.3蜘蛛网体系结构的问题
数据缺乏可信性:原因:数据无时间基准,数据算法差异,抽取的多层次问题,外部数据问题,无公共起始数据源
生产率问题:数据定位工作量大,每个程序都需要定制
无法将数据转换为信息:首先,遇到大量的应用程序,其次,发现缺少应用程序直接的集成,第三,抽取的众多应用中,没有存储足够的可供分析的历史数据
1.4 体系结构的转变
正因为蜘蛛网体系结构存在如上问题,这就需要体系结构的变化
在提现结构化环境的核心中,存在两种数据,原始数据和导出数据,他们的差异如下:
原始数据 导出数据
维持企业日常运行的细节性数据 经过汇总和计算的来满足管理者需要的数据
可更新 不能直接更新,但可以重现计算
当前值数据 历史数据
重复方式运行的过程操作 启发式运行
1.5体系结构化环境
此环境中,有四个层次的数据:操作层-->原子/数据仓库层-->部门层/数据集市层-->个体层
操作层的数据只包含面向应用的原始数据
数据仓库层存储不可更新的集成的历史数据,
部门层数据:是反向规范化和汇总的
个体层:暂时的,小规模的,主要做启发式分析
在DSS环境中,用户首先是个商务人员,其次才是技术人员,他们的主要工作是定义和发现企业决策中使用的信息,与传统的SDLC不同的是,DSS直到开发生命周期的最后才发现真正的需求
数据仓库的开发生命周期是有数据开始,得到数据后,将数据集成,然后检验数据存在什么偏差,,之后,针对数据些程序,分析程序结果,最后系统的需求才得到理解
1.6数据仓库环境的监控
监控对象:存储数据仓库中的数据
数据的使用情况
监控的度量:必须提供多种不同解释
监控的时机:也就是在哪里进行监控