数仓--DW--Hadoop数仓实践Case-10-维度合并

维度合并概述

  • 在多维数据仓库建模时, 如果维度属性中的两个组存在多对多关系时, 应该将它们建模为不同的维度, 并在事实表中构建针对这些维度的不同外键。 另一种处理多对多关系的方法是, 使用桥接表, 将一个多对多关系转化为两个一对多关系。 事实表通过引用桥接表的一个代理键,同时关联到多个维度值。 这样做的目的是消除数据冗余, 保证数据一致性。
  • 多对多关系的常见示例包括: 每个学生登记了许多课程, 每个课程有许多学生; 一名医生有许多患者, 每个患者有许多医生; 一个产品或服务属于多个类别, 每个类别包含多个产品或服务等。 从结构上来说, 创建多对多维度关系的方式类似于在关系数据模型中创建多对多关系。
  • 然而, 有时会遇到一些情况, 更适合将两个维度合并到单一维度中, 而不是在事实表中引用两个不同维度的外键, 或使用桥接表。 例如, 在一个飞行服务数据分析系统中, 业务用户希望分析乘客购买机票的服务级别。 此外, 用户还希望方便地按照是否发生服务的升级或降级情况过滤并构建报表。 最初的想法可能是建立两个角色扮演维度, 一个表示最初购买的机票服务等级, 另外一个表示实际乘机时的服务级别。 可能还希望建立第三个维度表示升降级情况, 否则BI应用需要包括用于区分众多升降级情况的逻辑, 例如经济舱升级到商务舱, 经济舱升级到头等舱, 商务舱升级到头等舱等。 但是, 面对这个特殊场景, 在维度表中只有用于区分头等舱、 商务舱、 经济舱的三行记录。 同样, 升降级标准维度表也仅包含三行, 分别对应升级、 降级、 无变化。 因为维度的基数太小, 而且不会进行更新, 所以可以选择将这些维度合并成单一服务级别变动维度,如下图所示:


    服务级别维度变动.PNG
  • 不同维度的笛卡尔积将产生9行的维度表。 在合并维度中还可以包含描述购买服务级别和乘坐服务级别之间的关系, 例如表中的服务等级变动标识。 应该将此类服务级别变动维度当成杂项维度。 在此案例研究中, 属性是紧密关联的。 其他的航空事实表, 例如, 有效座位或机票购买, 不可避免地需要引用包含3行的一致性机票等级维度表。

维度合并的另一种情况

  • 还有一种合并维度的情况, 就是本来属性相同的维度, 因为某种原因被设计成重复的维度属性。 例如, 在销售订单示例中, 随着数据仓库中维度的增加, 我们会发现有些通用的数据存在于多个维度中。 例如, 客户维度的客户地址相关信息、 送货地址相关信息里都有邮编、 城市和省份。 下面说明如何把客户维度里的两个邮编相关信息合并到一个新的维度中。

修改数据仓库模式

  • 为了合并维度, 需要改变数据仓库模式。 下图显示了修改后的模式。 新增了一个source.source_zip_code_dim邮编信息维度表, dw.sale_order_fact事实表的结构也做了相应的修改。 注意图中只显示了与邮编维度相关的表。


    维度合并.PNG
  • source.source_zip_code_dim维度表与销售订单事实表相关联。 这个关系替换了事实表与客户维度的关系。 dw.sale_order_fact表需要两个关系, 一个关联到客户地址邮编; 另一个关联到送货地址邮编, 相应地增加了两个外键字段。 再次强调, 这里所说的外键是逻辑上的, Hive没有物理外键约束。
    修改脚本
-- 创建source.source_zip_code_dim
create table 
    source.source_zip_code_dim
(
    zip_code_key int comment 'zip_code_key'
    zip_code int comment 'zip_code',
    zip_city varchar(50) comment 'zip_city',
    zip_province varchar(50) comment 'zip_province',
    zip_valid_from date comment 'zip_valid_from',
    zip_valid_to date comment 'zip_valid_to',
    zip_indicator string comment 'zip_indicator',
    zip_version int comment 'zip_version'
) comment 'source_zip_code_dim'
clustered by (zip_code_key) into 8 buckets
stored as 
orc tblproperties ('transactional'='true');

-- 将source.source_consumer_dim中的邮编信息导入到source.source_zip_code_dim中
insert into table
    source.source_zip_code_dim
select 
    row_number() over(order by t1.consumer_zip_code),
    consumer_zip_code,
    consumer_city,
    consumer_province,
    '1900-01-01',
    '9999-12-31',
    'Current',
    1
from
    (select 
        distinct consumer_zip_code,consumer_city, consumer_province
    from 
        source.source_consumer_dim
    where 
        consumer_zip_code is not null
    union
    select 
        distinct consumer_shipping_zip_code as consumer_zip_code ,consumer_shipping_city as consumer_city ,consumer_shipping_province as consumer_province
    from 
        source.source_consumer_dim
    where
        consumer_zip_code is not null
    ) t1;
  • 语句说明:执行上面的语句初始装载邮编相关数据。 初始数据是从客户维度表中来的, 这只是为了演示数据装载的过程。 客户的邮编信息很可能覆盖不到所有邮编, 所以更好的方法是装载一个完整的邮编信息表。 由于客户地址和送货地址可能存在交叉的情况, 因此使用union联合两个查询。 注意这里不能使用union all, 因为需要去除重复的数据。送货地址的三个字段是在"维度表技术-列增加"节后加的, 在此之前数据的送货地址为空, 邮编维度表中不能含有NULL值, 所以要加上where shipping_zip_code is not null过滤条件去除邮编信息为NULL的数据行。

source_zip_code角色扮演

  • 基于邮编维度表创建客户邮编和送货邮编视图, 分别用作两个地理信息的角色扮演维度
    脚本如下:
create view 
    consumer_zip_code_dim
(
    consumer_zip_code_key,consumer_zip_code,consumer_city,consumer_province,consumer_valid_from,consumer_valid_to,consumer_indicator,consumer_version
)
as select
    zip_code_key,
    zip_code,
    zip_city,
    zip_province,
    zip_valid_from,
    zip_valid_to,
    zip_indicator,
    zip_version
from
    source.source_zip_code_dim
;
create view 
    shipping_zip_code_dim
(
    shipping_zip_code_key,shipping_zip_code,shipping_city,shipping_province,shipping_valid_from,shipping_valid_to,shipping_indicator,shipping_version
)
as select
    zip_code_key,
    zip_code,
    zip_city,
    zip_province,
    zip_valid_from,
    zip_valid_to,
    zip_indicator,
    zip_version
from
    source.source_zip_code_dim
;

修改销售订单事实表

  • 数据迁移
-- 修改订单事实表
alter table dw.sale_order_fact rename to dw.sale_order_fact_old;
-- 创建数仓模型修改后的表
-- 创建新表
create table 
    dw.sale_order_fact
(
    order_number int comment 'order_number',
    customer_sk int comment 'customer surrogate key',
    customer_zip_code_sk int comment 'customer zip surrogate key',
    shipping_zip_code_sk int comment 'shipping zip surrogate key',
    product_sk int comment 'product surrogate key',
    sale_order_atrribute_sk int comment 'sale_order_atrribute_sk',
    order_date_sk string comment 'date surrogate key',
    request_delivery_date_sk int comment 'request_delivery_date_sk',
    order_amount decimal (10 , 2 ) comment'order amount',
    order_quantity int comment 'order_quantity'
)
clustered by (order_number)
into 8 buckets
stored as orc tblproperties('transactional'='true');
  • 以上语句先将销售订单表改名以保存现有数据, 然后新建一个销售订单事实表, 增加客户邮编代理键和送货邮编代理键, 引用两个邮编信息角色扮演维度。
  • 将数据插入新建的结构表中
-- 将数据插入到新的结构表,并引入代理键
insert into 
    dw.sale_order_fact
select 
    t1.order_number,
    t1.customer_sk,
    t2.customer_zip_code_sk,
    t3.shipping_zip_code_sk,
    t1.product_sk,
    t1.sale_order_atrribute_sk,
    t1.order_date_sk,
    t1.request_delivery_date_sk,
    t1.order_amount,
    t1.order_quantity
from 
    dw.sale_order_fact_old t1
left join
    (
    select 
        a.order_number as order_number,
        c.consumer_zip_code_key  as customer_zip_code_sk
    from
        dw.sale_order_fact_old a,
        source.source_consumer_dim b,
        consumer_zip_code_dim c
    where
        a.customer_sk=b.consumer_key
    and
        b.consumer_zip_code = c.consumer_zip_code
    ) t2
on
    t1.order_number=t2.order_number
left join
    (
    select 
        a.order_number as order_number,
        c.shipping_zip_code_key  as shipping_zip_code_sk
    from
        dw.sale_order_fact_old a,
        source.source_consumer_dim b,
        shipping_zip_code_dim c
    where
        a.customer_sk=b.consumer_key
    and
        b.shipping_zip_code = c.shipping_zip_code
    ) t3
on
    t1.order_number=t3.order_number;
  • 语句说明:上面这条语句有些复杂。 它是把数据备份表dw.sale_order_fact_old中的数据装载回销售订单事实表, 同时需要关联两个邮编角色维度视图, 查询出两个代理键, 装载到事实表中。 注意老的事实表与新的邮编维度表是通过客户维度表关联起来的, 所以在子查询中需要三表连接, 然后用两个左外连接查询出所有原事实表数据, 装载到新的增加了邮编维度代理键的事实表中。

修改source_consumer_dim

  • "腾笼换鸟"策略
-- 修改source.source_consumer_dim表
alter table source.source_consumer_dim rename to source.source_consumer_dim_old;
-- 创建新表
create table if not exists source.source_consumer_dim(
consumer_key int  comment "代理键",
consumer_number varchar(50) comment "顾客编号",
consumer_name varchar(50) comment "顾客名称",
consumer_street_address varchar(50) comment "顾客地址",
consumer_shipping_address varchar(50) comment '顾客送货地址',
consumer_valid_from date comment "有效期开始日期",
consumer_valid_to date comment "有效期结束日期",
consumer_indicator varchar(50) comment "状态指示器",
consumer_version int comment "顾客变化版本号"
)comment "客户维度表"
clustered by (consumer_key) into
8 buckets
stored as
orc tblproperties ('transactional'='true')
;
-- 插入数据
insert into 
    source.source_consumer_dim
select 
    consumer_key,
    consumer_number,
    consumer_name,
    consumer_street_address,
    consumer_shipping_address,
    consumer_valid_from,
    consumer_valid_to,
    consumer_version
from 
    source.source_consumer_dim_old 
;
-- 删除旧结构表
drop table source.source_consumer_dim_old;

修改定期脚本

定期装载脚本有三个地方的修改:
(1) 删除客户维度装载里所有邮编信息相关的列, 因为客户维度里不再有客户邮编和送货邮编相关信息。
(2) 在事实表中引用客户邮编视图和送货邮编视图中的代理键。
(3) 修改pa_customer_dim(维度子集)装载, 因为需要从销售订单事实表的customer_zip_code_sk获取客户邮编。
脚本略。按照前面的套路进行修改即可。

  • 脚本需要注意两个地方。 装载事实表数据时, 除了关联两个邮编维度视图外, 还要关联过渡区的ods.ods_customer表。 这是因为要取得邮编维度代理键, 必须连接邮编代码字段, 而邮编代码已经从客户维度表中删除, 只有在源数据的客户表中保留。 第二个改变是PA子维度的装载。 州代码已经从客户维度表删除, 被放到了新的邮编维度表中, 而客户维度和邮编维度并没有直接关系, 它们是通过事实表的客户代理键和邮编代理键产生联系的, 因此必须关联事实表、 客户维度表、 邮编维度表三个表才能取出PA子维度数据。 这也就是把PA子维度的装载放到了事实表装载之后的原因。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,874评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,102评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,676评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,911评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,937评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,935评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,860评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,660评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,113评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,363评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,506评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,238评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,861评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,486评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,674评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,513评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,426评论 2 352