数据仓库inmon和kimkimball两大派系之争

        网上已经有很多关于数据仓库特征的介绍,这里就不再赘述。主要是梳理下数据仓库inmon和kimball两大派系的特点。

kimball数据仓库架构

        Kimball架构是一种自下而上的架构,它认为数据仓库是一系列数据集市的集合。企业可以通过一系列维数相同的数据集市递增地构建数据仓库,通过使用一致的维度,能够共同看到不同数据集市中的信息,这表示它们拥有公共定义的元素。

        kimball将数据仓库划分为4个不同组成部分,分别是:操作型源系统、ETL系统、数据展示和商业应用,架构图如下:

图-kimball组件图

操作型源系统

        记录操作型系统,用于获取业务事务。源系统位于数据仓库之外,提供的数据仓库需要的基础数据,系统不能控制源系统数据格式和内容。但源系统一般不维护历史信息,数据仓库的责任是更好的承担源系统过去情况的责任,并依据业务需求实现源系统数据不能实现广泛的、无法预料的查询方式查询特点。

获取-转换-加载(ETL)系统

        ETL系统处于操作型源系统和数据仓库展现之间。ETL工作流程包括数据获取、转换和加载。

        其中数据获取是将数据从操作型系统导入数据仓库环境,读取并理解数据将需要的数据复制到ETL系统进行后续数据处理操作。

        数据转换是对读取的操作型源系统数据进行清洗数据(消除拼写错误、处理错误元素、解析规范数据标准格式)、合并来自不同数据源数据。数据通过ETL系统处理,增加数据利用价值,同时可以进行元数据诊断,逐步改进源系统数据质量。

        数据加载是将构建处理完成的数据加载到展现区域的目标纬度模型中。在数据加载过程中主要是划分纬度和事实,具体包括代理键分配、查找代码以及提供适当描述、拆分或组合列以提供适当的数据值、连接满足3NF数据表成为扁平的不满足规范化要求。

支持商业智能决策展现区

        展现区数据应该以维度模型展现,采用星型模式或OLAP多维数据库。为满足用户无法预期的、随意查询,必须使用原子数据。虽然在展现区,为提高性能会存储聚集数据,但仅仅有这些汇总数据而没有形成汇总数据的细粒度数据,是不够完整的。虽然用户度某个订单的单个目的查询频度较低,但可能会对上周、上个月订单类型查询,因此展现区一定要包含最细粒度数据,方便用户获取得最准确查询结果,而用户对需求是不可预知的、不断变化的,提供各种细节数据方便用户上卷解决实际问题。

商业智能应用

        商业智能(Business Intelligence,BI)指用户利用展现区制定分析决策能力。

辐射状企业信息工厂inmon架构

        Bill Inmon提倡辐射状企业信息工程(corporate information factory,CIF),下图是简化版CIF。

图-CIF简化版

        在CIF环境下,数据从操作型数据源中获取,在ETL系统中处理,这一过程叫数据获取。这一过程获取的原子数据保存在满足3NF数据库中。这种规范化、原子数据的仓库称为CIF架构下企业数据仓库(EDW)。而规范化的数据要求是CIF中强制性的构件。CIF提倡企业数据协调和集成,是使用规范化的EDW承担这一角色。

        inmon主张自上而下的架构,不同的OLTP数据集中到面向主题、集成的、不易失的和时间变化的结构中,用于以后的分析,且数据可以通过下钻到最细层,或者上卷到汇总层;数据集市应该是数据仓库的子集,每个数据集市是针对独立部门特殊设计的。inmon将数据仓库定义为整个企业级的集中存储库,数据仓库存放着最低的详细级别的原子数据。维度数据集市只是在数据仓库完成以后才创建的。因此,数据仓库是企业信息工厂(CIF)的中心,它为交付商务智能提供逻辑框架。

数据获取

        获取各种操作源系统数据,按照3NF标准对获取的数据进行拆分,形成企业数据仓库中的规范表。

数据发布

        针对不同主题,对企业数据仓库中的规范原子数据按照维度模型拆分,结合部门、主题场景对企业数据仓库中的数据进行上卷到汇总层,提供BI应用使用。企业数据仓库中保留的是原子数据,BI应用系统可以下钻直接查询原子数据等细粒度数据。

两大派系对优缺点总结

        Inmon的核心企业数据仓库要求规范化表,需要大量的时间来梳理和设计数据表结构,但如果规范化数据仓库一旦建立好了,则以后数据就更易于管理。而且由于开发人员不能直接使用其中心数据库,更加确保了数据质量,中心数据库是采用规范化设计的,冗余情况也会更少。而维度建模数据仓库对数据表结构没有强规范型要求,数据仓库建设敏捷性就更好点,而且适用于业务变化比较频繁的情况,对开发人员的要求也没有规范化数据仓库那么高。


图-inmon和kimball架构比对
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,837评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,551评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,417评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,448评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,524评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,554评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,569评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,316评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,766评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,077评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,240评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,912评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,560评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,176评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,425评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,114评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,114评论 2 352

推荐阅读更多精彩内容