数据仓库理论第一炮

  • 男人的内心都是很纯洁的,风骚起来恐怕受不了。
    作为数仓的工作者,长时间的与数据打交道,一股作气写sql。
    在Kimball和Inmon是两种主流的数据仓库方法论,分别由 Ralph KimballBill Inmon 提出,在实际数据仓库建设中,业界往往会相互借鉴使用两种开发模式。

整理如下:

image.png

Inmon 模型

  • 看过数据建模的书的小友都知道,Inmon他提出的建模方法是从全企业的高度设计一个3NF模型,但是数仓的3NF和OLTP中的3NF的区别在于,它是站在企业的角度面向主题的抽象,而不针对具体业务过程。
    他推崇自上而下的建模方式,即从数据源到数据仓库再到数据集市的(先有数据仓库再有数据市场)一种瀑布流开发方法。
    Inmon模型以数据源头为导向。需要探索性地去获取尽量符合预期的数据,尝试将数据按照预期划分为不同的表需求。明确数据的清洗规则后将各个任务通过ETL由Stage层转化到DW层,这里DW层通常涉及到较多的UDF开发,将数据抽象为实体-关系模型。在完成DW的数据治理之后,可以将数据输出到数据集市中做基本的数据组合。将数据集市中的数据输出到BI系统中去辅助具体业务。

在OLTP系统数据(可以笼统为业务后端用的数据)的主要用的建模方式就是三范式,从而在事务处理中解决数据的冗余和一致性问题,遵照一定的规范要求,目的在于降低数据的冗余性

关系模型之范式理论:

第一范式(1NF):每一列原子性。
例如:<编号,姓名,商品> 那么商品里面不能包含数量和某个商品,需拆分,一个属性不可多个值。
第二范式(2NF):满足第一范式并且非主键的数值都依赖于数据表的主键,不能存在部分依赖
例如:<学号,姓名,身份证,课程号,课程名,分数>在这个表主键是<学号,课程号>分数完全依赖(课程号,课程名)分数不完全依赖姓名,那么拆表<学号,姓名,身份证><课程号,课程名,分数>
第三范式(3N):满足第二范式,消除数据冗余,不能存在传替函数依赖。
例如:A->B,B->C那么A不等于指向C。(学号, 姓名, 年龄, 性别,系别,系别,系办地址,系办电话)作为一张表,那么存在(学号)→ (姓名, 年龄,性别,系别,系办地址、系办电话)但是还存在下面的决定关系(学号) → (所在学院)→(学院地点, 学院电话)
拆分:
(学号, 姓名, 年龄, 性别,系别)
(系别, 系办地址、系办电话)


image.png

Kimball 模型

  • Kimball老师 模型推崇自底向上的设计模式,即从数据集市到数据仓库再到数据源(先有数据集市再有数据仓库)的一种敏捷开发方法。Kimball都是以最终任务为导向。在得到数据后需要先做数据的探索,尝试将数据按照目标先拆分出不同的表需求。在明确数据依赖后将各个任务再通过ETL由Stage层转化到DM层。这里DM层数据则由若干个事实表和维度表组成。接着,在完成DM层的事实表维度表拆分后,数据集市一方面可以直接向BI环节输出数据了,另一方面可以先DW层输出数据,方便后续的多维分析。

维度建模是专门用于分析型数据库、数据仓库、数据集市建模的方法。:

  • 维度建模里面,包含了基本的两个概念。
  1. 维度表(dimension)

     表示对分析主题所属类型的描述。比如"昨天早上张三在京东花费200元购买了一个皮包"。那么以购买为主题进行分析,可从这段信息中提取三个维度:时间维度(昨天早上),地点维度(京东), 商品维度(皮包)。通常来说维度表信息比较固定,且数据量小。
    
  2. 事实表(fact table)

     表示对分析主题的度量。比如上面那个例子中,200元就是事实信息。事实表包含了与各维度表相关联的外码,并通过JOIN方式与维度表关联。事实表的度量通常是数值类型,且记录数会不断增加,表规模迅速增长。
    

在维度建模的基础上又分为三种模型:

星型模型:

image.png
  • a. 维表只和事实表关联,维表之间没有关联;
  • b. 每个维表的主码为单列,且该主码放置在事实表中,作为两边连接的外码;
  • c. 以事实表为核心,维表围绕核心呈星形分布;

雪花模型:

image.png
  • 雪花模式是对星形模式的扩展,每个维表可继续向外连接多个子维表

星座模型:

  • image.png
  • 雪花模式是将星型模式的维表进一步划分,使各维表均满足规范化设计。而星座模式则是允许星形模式中出现多个事实表。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,607评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,239评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,960评论 0 355
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,750评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,764评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,604评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,347评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,253评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,702评论 1 315
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,893评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,015评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,734评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,352评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,934评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,052评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,216评论 3 371
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,969评论 2 355

推荐阅读更多精彩内容