数据仓库系列1-什么是数据仓库

Data Warehouse

什么是数据仓库?

数据仓库(DW)是用于从不同来源收集和管理数据,以提供有意义的商业洞察力过程。数据仓库通常用于连接和分析来自异构源的业务数据。数据仓库是BI系统的核心,是为数据分析和报告而构建的。

它是技术和组件的混合体,有助于战略性地使用数据。它是企业对大量信息的电子存储,旨在用于查询和分析而不是事务处理。它是一个将数据转化为信息并及时提供给用户以发挥作用的过程。

决策支持数据库(数据仓库)与组织的操作数据库分开维护。但是,数据仓库不是产品而是环境。它是信息系统的架构构造,可为用户提供当前和历史决策支持信息,这些信息在传统的操作数据存储中难以访问或呈现。

很多人都知道,一个由 3NF 设计的库存系统数据库有很多相互关联的表。例如,关于当前库存信息的报告可以包括 12 个以上的连接条件。这会迅速减慢查询和报告的响应时间。数据仓库提供了一种新设计,可以帮助减少响应时间,并有助于提高报表和分析查询的性能。

数据仓库系统也被称为以下名称:

  • 决策支持系统 (DSS)
  • 行政信息系统
  • 管理信息系统
  • 商业智能解决方案
  • 分析应用
  • 数据仓库

数据仓库的历史

数据仓库有利于用户了解和提高其组织的绩效。随着计算机系统变得更加复杂并且需要处理越来越多的信息,存储数据的需求也在不断发展。然而,数据仓库并不是什么新鲜事。

以下是数据仓库发展过程中的一些关键事件——

1960 年 - 达特茅斯 (Dartmouth) 和通用磨坊 (General Mills) 在一个联合研究项目中,开发术语维度和事实。
1970 年 - 尼尔森和 IRI 引入了用于零售销售的维度数据集市。
1983- Tera Data Corporation 推出专为决策支持设计的数据库管理系统
数据仓库始于 1980 年代后期,当时 IBM 员工 Paul Murphy 和 Barry Devlin 开发了业务数据仓库。
然而,真正的概念是由 Inmon Bill 给出的。他被认为是数据仓库之父。他撰写了有关仓库和企业信息工厂的构建、使用和维护的各种主题的文章。

数据仓库如何工作?

数据仓库用作中央存储库,信息来自一个或多个数据源。数据从事务系统和其他关系数据库流入数据仓库。

数据可能是:

  1. 结构化的
  2. 半结构化
  3. 非结构化数据

数据经过处理、转换和摄取,以便用户可以通过商业智能工具、SQL 客户端和电子表格访问数据仓库中处理过的数据。数据仓库将来自不同来源的信息合并到一个综合数据库中。

通过将所有这些信息合并到一个地方,组织可以更全面地分析其客户。这有助于确保它考虑了所有可用信息。数据仓库使数据挖掘成为可能。数据挖掘正在寻找可能导致更高销售额和利润的数据模式。

数据仓库的类型

三种主要类型的数据仓库 (DWH) 是:

1. 企业数据仓库(EDW):

企业数据仓库 (EDW) 是一个集中式仓库。它为整个企业提供决策支持服务。它提供了一种用于组织和表示数据的统一方法。它还提供根据主题对数据进行分类的能力,并根据这些部门提供访问权限。

2. 运营数据存储:

当数据仓库和 OLTP 系统都不支持组织报告需求时,操作数据存储(也称为 ODS)只不过是所需的数据存储。在ODS中,数据仓库是实时刷新的。因此,它被广泛用于日常活动,例如存储员工的记录。

3. 数据集市:

数据集市是数据仓库的一个子集。它专为特定业务线而设计,例如销售、财务、销售或财务。在独立的数据集市中,数据可以直接从来源收集。

数据仓库的一般阶段

早些时候,组织开始使用相对简单的数据仓库。然而,随着时间的推移,开始使用更复杂的数据仓库。

以下是使用数据仓库 (DWH) 的一般阶段:

离线操作数据库:

在这个阶段,数据只是从一个操作系统复制到另一个服务器。这样,复制数据的加载、处理和报告不会影响操作系统的性能。

离线数据仓库:

数据仓库中的数据定期从操作数据库更新。Datawarehouse 中的数据被映射和转换以满足 Datawarehouse 目标。

实时数据仓库:

在此阶段,每当操作数据库中发生任何事务时,都会更新数据仓库。例如,航空公司或铁路订票系统。

集成数据仓库:

在此阶段,当操作系统执行事务时,数据仓库会不断更新。然后,数据仓库生成传递回操作系统的事务。

数据仓库的组成部分

数据仓库的四个组件是:

负载管理器:负载管理器也称为前端组件。它执行与将数据提取和加载到仓库相关的所有操作。这些操作包括为进入数据仓库准备数据的转换。

仓库管理员:仓库管理员执行与仓库中数据管理相关的操作。它执行诸如数据分析以确保一致性、索引和视图的创建、非规范化和聚合的生成、源数据的转换和合并以及归档和烘焙数据等操作。

查询管理器:查询管理器也称为后端组件。它执行与用户查询管理相关的所有操作操作。此数据仓库组件的操作是直接查询适当的表以安排查询的执行。

最终用户访问工具:

这分为五个不同的组,例如 1. 数据报告 2. 查询工具 3. 应用程序开发工具 4. EIS 工具,5. OLAP 工具和数据挖掘工具。

重点学习

  • 数据仓库 (DWH),也称为企业数据仓库 (EDW)。
  • 数据仓库被定义为一个中央存储库,其中的信息来自一个或多个数据源。
  • 数据仓库的三种主要类型是企业数据仓库 (EDW)、操作数据存储和数据集市。
  • 数据仓库的一般状态是离线操作数据库、离线数据仓库、实时数据仓库和集成数据仓库。
  • Datawarehouse 的四个主要组件是负载管理器、仓库管理器、查询管理器、最终用户访问工具

参考

data-warehousing

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,651评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,468评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,931评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,218评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,234评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,198评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,084评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,926评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,341评论 1 311
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,563评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,731评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,430评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,036评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,676评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,829评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,743评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,629评论 2 354

推荐阅读更多精彩内容

  • 一、数据仓库概念 数据仓库(Data Warehouse)可简写为DW或DWH。数据仓库的目的是构建面向分析的集成...
    一只森林鹿Luluzeng阅读 4,159评论 0 24
  • 数据仓库 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策...
    ItStar阅读 323评论 0 1
  • 目录一、什么是数据仓库二、数据集成:ETL三、主流的数据仓库简介 一、什么是数据仓库 我们先从一个故事开始:在很久...
    回锅肉不回锅了阅读 781评论 1 0
  • 16宿命:用概率思维提高你的胜算 以前的我是风险厌恶者,不喜欢去冒险,但是人生放弃了冒险,也就放弃了无数的可能。 ...
    yichen大刀阅读 6,046评论 0 4
  • 公元:2019年11月28日19时42分农历:二零一九年 十一月 初三日 戌时干支:己亥乙亥己巳甲戌当月节气:立冬...
    石放阅读 6,877评论 0 2