2数据仓库生命周期_数据路线(读书笔记)

数据路径

4.1维度建模

  • 分析收集到的业务访谈需求,画出详细的业务流程图,确定命名约定。

  • 根据业务需求、业务流程图,分析得到业务过程涉及的维度、事实,建设一致性维度,建设数据仓库总线矩阵,确立数据架构。

  • 从总线举证派生初始图形模型,确定设计范围、明确事实表粒度,明确每个事实表的主要维度,明确所有需要补充调查的问题,得到高层模型图。然后针对每个表进行组装,并向下钻取到定义、数据源、关系、数据质量问题和所需的转换。

  • 最后,与业务方审查和验证模型。通过多次测试直到模型满足业务需求,则完成设计。

  • 关键提交物:高层模型图、属性和度量列表、详细维度设计工作表、问题列表。

4.1.1关键提交物

得到的设计文档包括:

  • 业务过程简要描述。

  • 高层数据模型图。

  • 属性和度量列表

  • 每个维度表和事实表的详细维度设计工作表

  • 公开问题列表,突出标识尚未解决的问题

4.1.2组件建模团队

有效控制风险和工作量的key point:


4.1.3维度模型建模步骤

1.选取业务过程

2.声明粒度

3.识别维度

4.识别事实

4.1.4建设高层维度模型

高层模型显示了一个给定的业务过程的具体事实和维度表。便于和业务人员、干系人沟通、讨论,是详细设计的切入点。

1.召开设计会议:

2.直接目标是创建高层维度模型图,对业务过程中的维度表和事实表的图形描述,接着为维表创建初始属性列表、为事实表创建度量。

3.为高层模型图编制文档:


4.识别维度和度量:

完成高层模型后,开始维度和度量的识别。按照4步骤推动设计,对业务过程的维度属性进行初始化,接着是事实表的度量。

得到初始维度和度量清单:

4.1.5建设详细维度模型

详细的维度模型设计阶段,填补高层模型缺失的信息,解决设计问题,不断测试模型是否满足业务需求。从每张表、每一列定义详细的维度模型。每次只关注1~2张表。从维度表开始,然后处理事实表。建议从简单、易懂的维度开始,例如日期维度。

1.识别元数据:

找出适用于填充目标设计模型的源数据。

2.了解候选数据源:

为每个维度和事实表明确数据源。了解候选数据源,从需求中、总线矩阵中识别数据源,得到候选数据源列表。

3.数据探查和选定数据源

根据候选数据源列表,评估每个数据源,确定最佳数据源。收集并审查可用的源系统文档,如数据模型、文件定义、记录格式、书面文档和源系统程序。基本数据源的选择参考:数据可访问性、数据供给的持久性、数据准确性。

数据探查是对数据源内容的系统分析,涉及的范围从计算字节数、检查基数到检查数据是否满足DW/BI的要求等更为深入的分析。数仓迭代过程中,每个数据源都需要进行详细的数据探查,且探查结果有助于选择最优源系统。数据探查是一系列的测试:

  • 对单个字段的探查,检查内容是否和基本数据定义及定义域声明一致,有多少行赋有空值或背离定义域的内容。

  • 调查不同字段间的关系,使用结构筛选法,显示数据表中的键,与高层的多对多关系形成的层级。

  • 检查键值的唯一性。

  • 检查表和表之间的关系,主键和外键间的关系,是否出现没有子类的父类。

  • 检查企业中特有的复杂业务规则。

数据探查的结果:

  • 确认候选数据可行/不可行。

  • 在数仓建设前发现并修复源系统的问题。

  • 从源系统抽取数据时,通过ETL过程修正数据质量问题。

  • 发现未预料到的业务规则、层次结构和外键-主键关联。

4.确定一致性维度

在详细设计中,定义关键的一致性维度。对企业各部门的表及属性命名、描述和定义达成共识,便于后期用户对维度模型的理解和接受。

5.确定基本事实和导出事实

根据业务需求,定义度量、整理事实信息文档,包括基本事实、导出事实,导出事实中的可加事实、非可加事实(累积事实、比率)。

在ETL过程设计前,定义完所有基本事实。

对于导出事实,明确支持导出事实计算所需要的基本事实,并记录在文档中。

6.为详细表设计编制文档

详细建模阶段的关键提交物是详细设计工作表。

  • 每个维度和事实表都对应一个单独的详细表设计。包括属性/事实名、描述、样值,每个维度属性都对应一个缓慢变化维类型标识。

  • 详细事实表设计要明确外键关系、恰当的退化维和每个事实的规则,规则说明事实是可加、半可加、不可加。

  • 在详细设计过程中,捕捉用户所期望的属性和事实,发掘在初期没有发现的属性和事实。

  • 将设计过程中做好记录,包括发现的问题、定义、转换规则和数据质量问题、使用到的特殊设计方法(杂项维、小型维、桥接表)。



7.更新总线矩阵识别和解决建模问题

详细建模过程中,会发现业务过程新的信息,可能引入新事实、维度,维度的分割或组合灯。因此在设计过程中,要及时更新总线举证,便于与其他人员沟通时使用的总线矩阵是符合实际的最新信息。


8.识别和解决建模问题

详细设计中发现的问题,可能会导致高层模型的修改,对源系统的分析可以揭示出原先没有发现的有利因素和约束,可能会产生一些维度的设计决策,可能导致事实表粒度的改变或者产生新的事实表,也可能会发现一些新的业务需求。

在建模过程中发现问题时,应该及时对这些问题进行跟踪并找出相关的解决方案。及时记录问题,并确认问题的分配。

4.1.6审查和验证模型

完成详细设计后,金融模型审查和验证阶段。设计团队需要与三个团体进行讨论:

1. 源系统开发人员、数据库管理人员;

数据模型审查,与对源系统业务过程属性的IT同事共同进行。

  • 第一,要明确维度建模分析与实务处理的不同,解释维度建模相关理念。

  • 第二,审查总线矩阵,了解项目范围和全局数据架构,论证一致性维度,给出业务过程优先级,解释高层模型。

  • 第三,逐个检查维度表和事实表。

  • 第四,审查尚未解决的问题。

2. 没有直接参与模型开发的核心业务用户;

基本过程与IT讨论类似,核心用户关注模型的业务细节,小型机构中可以与IT讨论一起完成。

3. 向业务用户介绍;

基本过程与IT讨论类似。此外,通过实例问题,一步步向业务人员介绍维度模型如何支持业务需求。

4.2物理设计

由于项目、平台之间的差异,物理实现的细节也会有所差异,项目的数据量是主要的驱动因素之一,尽管业务需求和逻辑设计都是相同的,但是完成一个TB数据量的数据仓库的物理设计远比设计一个GB数据量的数据库更复杂。


4.2.1关键提交物

  • 物理数据模型

  • 最终的源到目标映射表

  • 初步的索引方案

  • OLAP数据库设计

  • 聚集方案

  • 分区方案

4.2.2团队建设

保证质量的关键:


4.2.3制定标准

DW/BI系统中的各个组件,需要在全系统内制定统一标准并遵守统一标准。包括:

  • 统一命名约定

  • 字段是否为空&处理方式

  • 设置登台表

  • 制定文件位置标准

  • 对用户访问的表使用代用名或者视图

  • 确定主键数据类型与生成规则

4.2.4设计物理数据模型&创建开发数据库

  • 设计物理数据结构

  • 确定源到目标的映射

  • 使用数据建模工具

  • 进行初步的规模估计

  • 创建开发数据库

4.2.6设计处理数据存储

其他类型的表作为整个BI系统的一部分来进行设计和部署:

  • 支持ETL系统的登台表

  • 用于ETL处理和数据质量的审计表

  • 用于监视用户访问情况的访问监视表

  • 安全表

4.2.7设计初始索引方案

  • 为维度表建立索引。主键建立唯一索引,常用作筛选条件的属性列建立位图索引或row header。不支持位图索引的可以建立b树索引。为每个用于链接、筛选的列或列分组建立单独的索引。

  • 为事实表建立索引。事实表首选索引是建立在主键上的B-tree索引或聚簇索引。

  • 为装载数据建立索引。保证系统装载和维护周期尽可能的短。

  • 为OLAP建立索引。创建维度关系数据库,作为OLAP输入针对维度关系数据库上执行的用于维度处理、完全多维数据集处理和增量多维数据集处理的查询,为关系数据仓库添加索引,使之支持OLAP处理。

  • 装载后分析表和索引,对表和索引进行分析便于设计高效的查询方案。

4.2.8设计聚集

聚集就是通过执行含有Group by字句的SQL查询生成的汇总表。

  • 通过监视查询,确定聚集设计的内容,将聚集的规模与使用情况相平衡。

  • 维护聚集。创建完成后,随时时间的推移维护聚集。

4.2.9设计物理存储结构

  • 计算表和索引的大小

  • 设计分区方案

  • 设置数据存储方案。

4.3ETL设计和开发

  • 维度表转储处理

  • 事实表转储处理

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,670评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,928评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,926评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,238评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,112评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,138评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,545评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,232评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,496评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,596评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,369评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,226评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,600评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,906评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,185评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,516评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,721评论 2 335