数据湖是怎样挖的?

文:小黑羊丨画:庭作

原文链接:数据湖这个大坑,是怎么挖的?

以下为全文


从前,数据少的时候,人们拿脑子记就可以了,大不了采用结绳记事

后来,为了更有效率的记事和工作,数据库出现了。数据库核心是满足快速的增删改查,应对联机事务。

比如你用银卡消费了,后台数据库就要快速记下这笔交易,更新你的卡余额。

日子久了,人们发现,库里的数据越来越多了,不光要支持联机业务,还有分析的价值。

但是,传统数据库要满足频繁、快速的读写需求,并不适合这种以读取大量数据为特征的分析业务。

于是,人们在现有的数据库基础上,对数据进行加工。这个加工过程,被称为:

“ETL”

 抽取Extract、清洗转换Transform、加载Load

经过这三步,数据仓库就建好了。

这个“仓库”,主要是为了数据分析用途,比如用于BI、出报表、做经营分析等等。

简要总结下👇

数据库用于联机事务,通常为小数据量高频读写。

数据库等原始数据,经过ETL加工以后,就被装进了数据仓库。

数据仓库主要用于联机分析业务,通常为大数据量读取。

虽然应用场景不一样,但他们都是结构化数据

在相当长的一段时间内,他们联合起来,共同满足企业的实时“交易”型业务和联机“分析性”的业务。

随着时代的发展,数据的类型越来越多,人们对数据的需求也越来越复杂。

企业越来越看重这些“大数据”的价值,希望把他们存好、用好。

这些数据,五花八门,又多又杂,怎么存呢?

索性挖个大坑吧!

这就是数据湖的原型。

说白了,数据湖就像一个“大水坑”,是一种把各类异构数据进行集中存储的架构。

为什么不是数据河Data River?

因为,数据要能存,而不是一江春水向东流。

为什么不是数据池Data Pool

因为,要足够大,大数据太大,一池存不下。

为什么不是数据海Data Sea

因为,企业的数据要有边界,可以流通和交换,但更注重隐私和安全,“海到无边天作岸”,那可不行。

so,数据湖,Data Lake,刚刚好。

可是,概念虽好,把这个“水坑”用好却不容易。

1、这个“坑”挖在哪儿?怎么挖?“挖掘机”贵不贵?

2、这“坑”挖好后,这么把各种水都引过来灌到坑里?

3、灌了半坑水,如何才能把他们利用起来?

这些,就是当下数据湖面临的挑战:如何建湖?如何做数据ETL?如何使用数据。

AWS是这样帮我们“挖坑”的。

首先,数据湖是一种存储架构,本质上讲是存储,所以,AWS就用了自己最经典的S3存储,来当数据湖的地基。

要知道,AWS在2006年出道的时候,第一款产品就是S3哦)。

企业基于AWS云服务,可以快速挖出一个适合自己的“湖”,而且这个“湖”根据需求,可大可小,按“注水量”付费。

接下来,就是如何把企业的各种异构数据注入到湖里,也就是我们前面说过的“ETL”,看起来很麻烦。

有个非常酷的产品叫AWS Glue,这简直就是个自动化数据分拣机,可以快速完成复杂的ETL过程,处理完的数据,既可以注入数据湖,也可以给数仓或数据库用。

Glue神器有两个特色

①它能自动化的生成元数据目录,大大简化数据管理工作量;

②它是无服务器架构的,呼之则来,挥之则来,一次还可以整好多台,开足马力处理数据。

目前这个神器已经在AWS中国(宁夏)区域和(北京)区域正式上线了。

同时,还有一个工具,也同步上线,叫做Amazon Athena。

这个工具,让我们可以用标准的SQL,对存储在S3里的数据进行查询,不管是结构化的还是非结构化的。

这就意味着,大家可以用最熟悉的SQL,轻松在S3硬地里“吃土”,当然也能在湖里“划水”,轻松进行数据洞察。

数据入湖之后,并不是简单摸鱼划水就完事了,光有Athena做查询还很不够。

AWS提供了一系列的工具,让企业能进行“湖底大开发”,满足各种各样的业务需求。

数据湖发展到现在,已经成为企业数据体系的基础:数据库、数仓、大数据处理、机器学习等各种数据服务,都可以“一湖尽收”。任何想构建“数据中台”的企业,都可以在AWS找到全面的解决方案。

在这个“上云用数赋智”时代,很多企业已经完成上云第一步,接下来,就是如何“用数”和“赋智”。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,362评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,330评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,247评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,560评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,580评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,569评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,929评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,587评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,840评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,596评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,678评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,366评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,945评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,929评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,165评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,271评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,403评论 2 342