第二章 数据仓库环境

第一章 决策支持系统(DSS)的发展
第二章 数据仓库环境

第二章 数据仓库环境

2.0 数据仓库的4个特征

  • 数据仓库是体系结构化环境的核心,是DSS的基础
特性 说明
面向主题 区别与面向应用
集成的 需经过ETL的
非易失 批量载入和访问(快照,不进行一般意义的更新)
时变性 所有记录都有时间标志,说明其在哪个时间是准确的

2.1 数据仓库的结构(数据细节)

细节级别 所属层 记忆
早期细节级 DW 归档数据
当前细节级 DW 近1~2年等
轻度汇总级 MID
高度汇总级

2.2 面向主题(的特征)

特征 记忆
包含N个物理表
通过主键联系
可以不同介质存储

2.3 从第一天到第N天(进化,非一蹴而就)

  • 简答说明数据仓库的需一步步进化,而非一蹴而就

2.4 粒度(设计的第一个主要问题)

粒度影响
数据量大小 粒度越小,存储越大
所能答的问题 粒度越小,能回答的问题越多
  • 双重粒度及多重粒度是必然
粒度的好处
不同人不同视角
一致性协调
灵活性
方便重构
未知需求

2.5 探查与数据挖掘

  • 细节数据方便探查和数据挖掘

2.6 活样本数据库

  • 抽取 1/100或1/1000

2.7 分区设计方法(设计的第二个主要问题)

  • 分区的目的是把数据划分成小的可管理的物理单元
  • 数仓的本质就是灵活的访问数据,大块数据不能满足这一要求,因此要分区

2.8 数据仓库中的数据组织

常见结构 说明 拓展
简单堆积文件 最常用 类似普通事实表
轮转综合文件 简单堆积的变种
简单直接文件 快照 类似维度建模中的累积快照
连续文件 类似于维度建模中的缓慢变化维

2.9 审计与数据仓库

  • 数仓可以进行审计,但太复杂建议在别的地方进行
  • 4个不适合审计的原因
原因
仓库中会突然出现数据
时间标定过程发生剧变
备份和恢复限制发生剧变
粒度处于最低级别

2.10 数据的同构/异构(存储、架构不同)

数据的划分标准

  • 主题域:如产品域
  • 表:产品表,销售商表,订单表,发货表,产品材料表
  • 数据在表中的出现:1月订单,2月订单,3月订单

2.11 数据仓库中的数据清理

数据根本没有删除,而是上升到更高级汇总

删除 说明
进入轮转综合文件 就是汇总了呗
转移至低价存储 比如导入到OSS
真正删除 实在没用的就删了
层次转移 由ods到dw

2.12 报表与体系结构化环境

报表类型 举例 环境
操作型报表 每日订单明细 业务系统
数仓型报表 每日订单量 仓库

2.13 各种环境中的操作型窗口(操作型环境)

  • 数据仓库中全是档案数据
  • 操作型环境也需要档案数据(如用户查看近半年的某个订单等)
  • 操作型环境中档案数据的时间范围就是操作型窗口

2.14 数据仓库中的错误数据

示例:7月1日账户A增加5000元,7月2日仓库生成了快照,但在8月15日发现错误了,不是5000元,而是750元,怎么修改呢?

序号 方法 描述 好处 坏处
1 更新历史数据 更新7月2日的数据 干净彻底 数据集被破坏,必须更新仓库,需进行很多修改
2 加入修正条目 8月16日加入两天数据,-5000,+750 最新数据的最好反映 需进行很多修改,规则复杂时候很难修复
3 不管历史,更正最新值 8月16日修正为 +750 准确反映余额 无法解释过去的错误,且需要对应用与过程进行约定

2.15 小结

  • 数据仓库设计的几个重要问题
总结 说明 记忆
特征 集成、主题、非易失、时变性 jzfs(近战法师)
数据设计的主要问题 分区、粒度、细节、异构、组织、清理、错误 fl.xyz.cc(clean,cuowu)
操作型系统的数据工作 操作型报表,操作型窗口
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,826评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,968评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,234评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,562评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,611评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,482评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,271评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,166评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,608评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,814评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,926评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,644评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,249评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,866评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,991评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,063评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,871评论 2 354

推荐阅读更多精彩内容