概念:主题,集成,稳定,随时间变化的数据集合,以用于支持管理决策过程
数据仓库特点:
面向主题:
用户使用数据仓库进行决策时所关心的重点领域,也就是一个较高管理层次上对信息系统的数据按照某一具体的管理对象进行综合,归类所形成的分析对象。
如: 在保险行业中
保单的主题,保人的主题,等等。
集成:
数据仓库中存储的数据一般从企业原来已建立的数据库系统中提取出来,但并不是原有的数据的简单复制,而是经过ETl(抽取,筛选,清理,转换,综合)
数据仓库中收集来自不同数据的数据进行汇总分析。不同的数据源之间,对于数据结构,字段名等的定义都不同,需要对不同数据源的数据进行一定的操作,如:去除噪音数据,使数据结构化等等。以求数据达到统一的格式便于分析。
稳定性即非易失去:
数据仓库是一个历史数据集合,数据仓库中的数据在某个时间段内保持不变。操作型数据库系统中,一般只存储短期数据,因此数据是不稳定的,它只是记录系统中数据变化的瞬间。但对于决策分析而言,历史数据相当重要,许多分析方法必须以大量的历史数据作为依托。
随时间而变化即时变得:
业务数据一般存储在60-90天,业务数据会定期导入到数据仓库中。这使得数据仓库总是拥有时间维度。从这个角度看,数据仓库实际是记录了系统的各个瞬态,并通过将各个瞬态链接起来形成动画。从而在数据分析时,再现系统运动过程。