数据仓库工具箱--维度和事实表概念

维度提供数据的入口点,提供数仓分析的最终标识和分组

不清楚一个数值数据元素应该是事实属性还是维度属性,可以通过分析该列是否是一种包含多个值并作为计算的参与者的度量,这种情况下该列可能是事实

该列是对具体值得描述,是一个常量、某个约束和行标识的参与者,此时该属性往往是维度属性

维度模型表示每个业务过程包含事实表,事实表存储事件的数值化度量,围绕事实表的是多个维度,维度表包含事件发生时实际存在的文本环境


维度模式需要具有简单性和对称性,数据易于理解和查询

维度模型非常适于变化,维度模型可预测的框架可适用用户行为的变化,每个维度的地位都相同,所有维度在事实表中都存在对应的入口点

维度模型应该围绕业务过程组织,例如订单、发货、服务调用等,而不是按照组织中部门的职责划分

维度设计过程:

(1)选择业务过程

业务过程是组织完成的操作型活动。例如,获得订单,用户注册。业务过程事件建立或获取性能度量,并转换为事实表中的事实

(2)声明粒度

粒度用于确定某一事实表中的行表示什么。针对不同的事实表粒度,要建立不同的物理表,在同一事实表中不要混用多种不同的粒度

(3)确认维度

维度提供围绕某一业务过程度量事件有关的文本环境(谁、什么、哪里、何时、如何、为什么)有关的事件

(4)确认事实

事实涉及来自业务过程事件的度量,基本上都是以数量值表示。一个事实表行月按照事实表粒度描述的度量事件之间存在一对一关系,因此事实表对应一个物理课观察的事件。在事实表内,所有事实只允许与声明的粒度保持一致。例如,在零售事务中,销售产品的数量与其总额是良好的事实,但商店经理的工资不允许存在于零售事务中

从最低的粒度级别来看,事实表行对应一个度量事件。除数字度量外,事实表总是包含外键,用于关联与之相关的维度,也包含可选的退化维度减和日期

事实表中的数字度量可划分为:可加、半可加、不可加事实

可加性度量可以按照与事实表关联的任意维度汇总

半可加度量可以对某些维度汇总,但不能对所有维度汇总。差额是常见的半可加事实,除了时间维度外,它们可以跨所有维度进行加法操作

不可加事实,度量是完全不可加的。例如:比率。对非可加事实,尽可能存储非可加度量的完全可加的分量。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容