一.数据仓库、BI以及维度建模

信息总是用作两个目的:操作型记录的保存和分析型记录的制定。
简单来说,操作型系统保存数据,DW/BI系统使用数据。

对于操作型系统,其用户确保组织能正常运转,对其的优化目的是使其能够更快的处理事务。
对于DW/BI系统,其用户研究分析企业运转,并对其性能进行评估,对其进行优化的目的是高性能地完成用户的查询。

一.维度建模

维度模型通常应用于关系数据库管理系统上,但不要求其必须满足第三范式(3NF)。
规范化的3NF模型主要应用于操作型过程中,因为对事务的更新与插入只涉及数据库的单一位置。但是对于BI查询来说,规范化模型太复杂,难以满足对数据的高性能检索需求。维度建模就是用来解决模式过分复杂的问题的。

1.星型模式与OLAP多维数据库

关系型数据库中实现的维度模型称为星型模式。
多维数据库环境中实现的维度模型为OLAP。


image.png

OLAP数据库建立并管理了性能聚集和预计算汇总表,采用这些优化方法,OLAP可以实现高性能查询。

星型模型有两个关键部件:用于度量的事实表,用于描述环境的维度表。

2.用于度量的事实表

事实表示某个业务度量,比如产品的销售数量,或销售额等。
事实表中的每行对应一个度量事件,每行中的数据是一个特定级别的细节数据,称为粒度。例如,销售事务中用一行来表示每个卖出的产品。

物理世界中的每一个度量事件与对应的事实表行具有一对一的关系,这一思想是维度建模的基本原则,其他工作都是以此为基础的。

最常用的事实是数值类型和可加类型事实。
事实通常以连续值描述,这样可以用来区分是事实还是维度属性。

不要在事实表中存储冗余的文本信息,应将其放入维度表中。

事实表的粒度可以分为三类:事务、周期性快照和累积快照。

事实表通常具有两个或更多外键与维度表的主键相连。
事实表通常有包含外键集合的主键。
通常几个维度一起唯一标识每个事务表行。

3.用于描述环境的维度表

维度表包含与业务度量事件有关的文本环境,“谁、什么、哪里、何时”等信息。
与事实表比较,维度表包含较少的行,且由单一主键定义,用于与事实表实现连接操作。

维度属性可作为查询约束、分组、报表标识的主要来源。因此,在DW/BI系统中起着至关重要的作用。

多数情况下,数仓的好坏直接依赖于维度属性的设置,良好的维度属性带来的回报是健壮的分片-分块分析能力。

4.星型模型中维度与事实的连接

维度模型表示每个业务过程包含事实表,以及围绕着事实表的多个维度表,这包含事件发生时实际存在的文本环境。


image.png

粒度最小的数据或原子数据具有最多的维度,尚未聚集的原子数据是最具有可表达性的数据。
在一个报表应用中,维度属性支持报表过滤和标识,事实表支持报表中的数字值。

二.Kimball的标准DW/BI架构

DW/BI分为4个不同的组成部分:操作型源系统、ETL系统、数据展现和商业智能应用。


image.png

1.ETL系统

建立规范化结构支持ETL过程是可以采用的方法。然而,这不是最终目标,不能在用户查询中使用规范化结构,因为其难以同时满足可理解性和性能两个目标。

2.展现区

DW/BI系统的展现区中的数据必须是维度化的、原子的、以业务过程为中心的。坚持使用总线结构的企业数仓,数据不应按照个别部门需要的数据来构建。

三.其他DW/BI架构

1.独立数据集市架构

采用这种架构,分析型数据以部门为基础来部署,不需要考虑企业级别的信息共享和集成。


image.png

2.辐射状企业信息工厂Inmon架构

Corporate Information Factory,CIF。
在这种架构下,数据从操作性数据源获取,在ETL系统中进行处理,称为数据获取。从这一过程中获得的原子数据保存在满足第三范式的数据库中,这种规范化的、原子数据的仓库称为CIF架构下的EDW(企业数据仓库,Enterprise Data Warehouse)。
然后业务用户根据数据细节程度和数据可用性要求访问EDW仓库。


image.png

四.维度建模的误区

误区1:维度模型仅包含汇总数据

我们不可能预测用户提出的所有问题,所以必须向业务用户提供最细粒度的数据。

误区2:维度模型是部门级而不是企业级的

误区3:维度模型是不可扩展的

误区4:维度模型仅用于预测

误区5:维度模型不能被集成

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,723评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,003评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,512评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,825评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,874评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,841评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,812评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,582评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,033评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,309评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,450评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,158评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,789评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,409评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,609评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,440评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,357评论 2 352

推荐阅读更多精彩内容

  • 数据仓库数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的Int...
    Albert陈凯阅读 4,958评论 0 15
  • DW/Bi系统业务有哪些需求(要求) 方便的存取数据 必须以一致的形式展现信息 能够适应变化 及时展现信息 数据安...
    数据僧阅读 3,253评论 2 16
  • 前言 互联网行业,除了数据量大之外,业务时效性要求也很高,甚至很多是要求实时的, 另外,互联网行业的业务变化非常快...
    原上野阅读 9,225评论 5 32
  • 你着迷 只因为没有见着更好的 浮华是一种浅薄的漂亮 典雅端庄才有持久的魅力 你开悟 或许是给自己一个契机 探索到更...
    guizigarden阅读 74评论 0 0
  • 可能这条路就是要一个人走很久很久吧,没有关系,再坚持走一段,一定会有小伙伴和你一起走的。 路旁花开花谢,路上行人行...
    文卓也阅读 218评论 0 1