数据,的仓库 -- Data, Warehouse

转职入行做数据仓库也有一年半载了,一直想写一些1,总结一下以往学习过程中的个人理解供自己与广众做参考。这篇文章,只是0,一个懒人包,帮助对数据仓库有兴趣的朋友,以类比形式简易理解数据仓库的概念,以作之后1的铺垫。因为是开篇,欢迎阅读过的朋友在简书这里留下疑问或建议,感激。

数据的“仓库”

什么是数据,什么是数据库?

Data,数据 (資料 zh-TW)其实就是 数、文字、字符,符号,或影像、声音。我们这里通常泛指的是可以被收集,处理的,可能有价值的数据。数据是新石油嘛(Data Is the New Oil)。既然有价值,我们来把它们比喻做货品吧,蔬果,啤酒,尿片。而你是老板(数据持有者/用户),要拿这些货品起家做生意(获取数据价值)。

Database,数据库(資料庫 zh-TW)就是装载这些电子化数据的“容柜”,通常这样的容柜会有个管理系统,以便帮助你查找,装载,卸除,整理你所持有的货品(数据)。对于蔬果和啤酒来说,他们是新鲜快消品,来去快,那么这个容柜可以是农场或酿酒厂里的大冰柜,成品,半成品(原始数据),都先摆大冰柜冻起来(OLTP 交易型数据库)。出货用的容柜可以是一般的货箱(OLAP 分析型数据库),对它操作频率相对不那么高,功能上也不那么多要求。不需冷藏功能,能摆的下出货的批量其实就够了(OLAP 在某些特性像存储读写/实时监测上的要求也许不高)。


什么是数据仓库,什么是数据集市?

好吧现在你发家了,有了点小资本,以前你是批发商,一直是一两个柜拿货、出货(直接使用数据库就够),甚至直接调货给零售商(终端用户)。现在你想进更多的货,考虑自己做做小加工和零售。是时候要整一块大地儿,有规模的定制好一些货架,来摆放盘点你这么多的货品了(大数据)。

Data Warehouse / EDW,数据仓库(資料倉儲 zh-TW),就是很大,预算充足的一个再加工仓储空间。可以集中,统一,整齐一致摆放来自于各类容柜的货品,分门别类上货架,并突出它们相关的时间标签,以便作为老板的你可以随时调出货品何时上架何时更改(历史数据),看看下次该采购什么货,多少货(做企业决策)。

调出到哪里呢?你聘有这么一批专员(BI分析员),帮你对接你的零售商客户。餐饮业客户希望调一些最新最炫的酒类货品;母婴产品零售想跟你调几批新旧款尿片试做比较;超市啤酒和尿片都要,他们要研究两者有什么关联,你的客户还真是多种多样哦。

我们只好在仓库外搭起几个小帐篷 Data Mart(数据集市),再把他们各自所需的货架(在这里数据是货架因为已整理分门别类好了)都调过去小帐篷出货。要啤酒,要尿片,或是两样都要,安照客户需求统统满足呗(面向业务主题)。

所以,按照范畴划分,数据 < 数据库 < 数据集市(小)/ 数据仓库(大)。

按照过程,一般的数据是由交易型数据库转移至分析型数据库,清洗整理后在数据仓库加载,最后转移至数据集市供用户使用:

货品在供货商的大冰柜转到货箱,在仓库清结整理加工上架,最后將货架调至集市供给零售商。

什么是 ETL?

Extract-Transform-Load,抽取-转换-加载。货品越多越需要自动化管理,否则就焦头烂额了嘛。你看亚马逊的仓库,都靠机器人来整理至出货,效率摆在那,不需要人手的就给它自动化。

它是这样开始的:仓库门前摆满了农场送来的满载了蔬果的货箱,上个礼拜和今天都有胡萝卜到货,今天还有新到的雪梨,而在仓库里指定的上架类别是新鲜蔬果汁成品(商业需求)。为了保证品质要来作些筛选取舍,上礼拜的胡萝卜过期就不要了,我们只要今天到货的胡萝卜和雪梨(数据的抽取)。

选好了这批货开箱后,胡萝卜和雪梨都摆上传送带往仓库里输送(数据抽取进程),清洁水洗(数据清洗)和大小分批(粒度筛选),这个过程也会分拣出质量不好的一部分(错误/不完整/冗余数据),接着就被按照批次摆放至仓库内的一个蔬果待加工储藏区(ODS)。

因为最终成品是新鲜胡萝卜雪梨汁,加工步骤(Staging)开始了:去皮去核打汁(数据转换),按比例参杂蔬果汁和水(商业需求逻辑),玻璃瓶封起,六支一箱包装好(数据模型标准),成品入仓上架(数据加载)。

EDW 中,胡萝卜和雪梨的 ETL 进程

以上这些仓库内的自动化处理进程,就叫ETL。设计,开发和维护这些进程的人,也就是数据的“仓务管理员”。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,457评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,837评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,696评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,183评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,057评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,105评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,520评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,211评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,482评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,574评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,353评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,213评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,576评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,897评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,174评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,489评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,683评论 2 335

推荐阅读更多精彩内容