当我们谈【数据仓库】的时候,我们在谈什么?

本文共1800字,预计阅读时长 10 min

一、数仓如何产生价值

当企业需要对不同来源、不同形式、不同主题的数据整合起来,供给数据分析、数据挖掘、数据报表使用时,有这么一个中间层将各种原始数据科学地加工处理成下游需要的样子。这个中间层就是数据仓库产生价值的地方。

二、常见架构

2.1 数据垂直划分--分层

大多数的互联网公司的数仓结构,粗略的看一般都是分三层:ODS(操作数据层)、CDM(公共维度模型层)、ADS(应用数据层),只是各个公司中间的CDM层的细分会有所不同,甚至对于同一公司,其中间层的结构也是随着业务的发展而不断演化的,所以下面介绍的CDM层内部划分也仅供参考。

2.2 数据水平划分--数据域

由于数仓是将企业内的各个业务板块、主题数据都放在一起,因此将这些数据根据业务过程或维度抽象成一个个的集合是十分有意义的。在划分数据域时,需要既能涵盖当前所有的业务需求,又能在新业务进入时无影响地被包含到已有的数据域中或者扩展新的数据域。

三、方法论

3.1 维度建模理论

对于维度模型的建设,通常采用四步法:

1️⃣选择业务过程:

可以是单个业务事件,比如交易的支付,退款。

也可以是某个事件的状态,比如当前的帐户余额。

2️⃣选择粒度:

预判所有分析需要细分的程度,从而决定选择的粒度。

3️⃣识别维表:

基于粒度设计维表,包括维度属性,用于分析时进行分组和筛选。

4️⃣选择事实:

确定分析需要衡量的指标。

3.2 总线矩阵

    基于维度建模的理论基础,便可以开始构建总线矩阵,包括以下两步。其中,关于总线矩阵中的各个名词术语解释如下:

名词术语解释

数据域面向业务分析,将业务过程或维度进行抽象的集合

业务过程指企业的业务活动事件,如下单、支付、退款都是业务过程

时间周期用来明确数据统计的时间范围或时间点

修饰词指除了统计维度以外的限定词,如日志域的访问终端类型下有PC端、无线端

度量/原子指标基于某一业务过程下的不可再拆分的指标,如支付金额

维度维度用来反映业务的一类属性,这类属性构成一个维度,如地理维度、时间维度

维度属性维度属性隶属于一个维度,如地理维度里面的国家名称、国家ID、省份名称等

派生指标派生指标=原子指标+修饰词+时间周期

a.梳理业务过程和数据域的关系

例如对于一个电商类公司的数据域业务过程可能包括:

数据域业务过程

商品域发布、上架、下架

日志域曝光、浏览、点击

交易域加购、下单、支付、退款、确认收货

客服销售域咨询服务、leads管理

互动域发帖、评论、分享

信用风控域评价、投诉

仓配域采购、配送

b.构建一致性维度

    对于不同的业务过程,很可能存在相同的分析维度,因此要保证不同业务过程分析时的维度属性是一致的。

3.3 指标体系

a.原子指标

命名规则:动作+度量

b.派生指标

命名规则:原子指标+时间周期+修饰词

类别:

1️⃣事务型指标:对业务活动进行衡量的指标,如新发商品数、订单支付金额;

2️⃣存量型指标:对实体对象的状态统计,如商品总数、注册会员数,时间周期一般是‘历史至今’;

3️⃣复合型指标:是在前两者的基础上复合而成的,常见的有比率型、比例型、统计型、排名型、对象集合型,如浏览下单转化率、最近7天点击量top10的商品集合

3.4 维度设计

a.选择维度

b.确定主维表

c.确定相关维表

d.选择维度属性

e.反规范化,将雪花型模型中的多层次属性合并到单个维表中

3.5 事实表设计

    需要先明确的是,事实表中伴随的是各类指标,这些指标分为

可加性:可以按照事实和任意关联的维度进行汇总

半可加性:可以按照事实和部分关联的维度进行汇总,比如库存可以根据地点、商品进行汇总,但把一年中每个月的库存量加起来却是没有意义的

不可加性:完全不具有可加性,比如比率型指标。

接下来,引入事实表的三种类型:

事务事实表:用来描述业务过程,保存的是原子指标。

周期快照事实表:一般按照某种时间周期间隔来记录事实

累计快照事实表:记录的是过程开始和结束之间的关键步骤事实,通常多个日期字段来记录关键时间节点,且随着生命周期的变化,记录也会随之改变

事实表设计的8个原则

尽可能包含所有与业务过程相关的事实

只选择与业务相关的事实

分解不可加性指标为可加性的

在选择维度和事实之前必须先声明粒度

再同一个事实表中不能有多种不同粒度的事实。例如在订单表中,如果存在多个订单对应一个交易订单时,交易订单的事实不应放进来。

事实的单位要保持一致

对事实的null值要处理

利用退化维度提高事实表的应用性

以上

ps:这篇文章是基于我在数仓方面的工作理解,以及借鉴阿里数仓建设的相关理论,摘取出来的。可能某些地方说得也不一定全面和客观,尤其是方法论这块,在未来的工作中还是需要不断地实践和归纳总结,在这里也仅给大家做一个参考思路,更多细节如果感兴趣的话,欢迎一起探讨。

你可能感兴趣的往期文章:

大数据干货系列(八)--Flume总结

大数据干货系列(十)--Kafka总结

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,794评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,050评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,587评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,861评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,901评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,898评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,832评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,617评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,077评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,349评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,483评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,199评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,824评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,442评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,632评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,474评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,393评论 2 352

推荐阅读更多精彩内容

  • 前言 互联网行业,除了数据量大之外,业务时效性要求也很高,甚至很多是要求实时的, 另外,互联网行业的业务变化非常快...
    原上野阅读 9,225评论 5 32
  • 本书是阿里巴巴分享描述了按照其公司业务的一些大数据技术实施的方案,是阿里巴巴对大数据的认知。其中也有很多值得学习的...
    yuppy_zyp阅读 7,928评论 0 12
  • 一、总述 1.1 对大数据的理解 大、快、多样性只是表象,大数据的真正价值在于生命性和生态性。阿里巴巴称之为“活数...
    脐橙CC阅读 8,956评论 0 7
  • 数据仓库数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的Int...
    Albert陈凯阅读 4,958评论 0 15
  • 在我心中曾经有一个梦能让我忘记所有的痛, 灿烂星空谁是真正的英雄, 平凡的人们给我最多的感动, 我们每一个人都是平...
    桐雪晶莹阅读 238评论 0 3