数据湖(Data Lake)系列2-数据湖的前世今生

今天继续数据湖的话题,主要是梳理一下数据湖的前世今生。开始前,简单回顾一下知识点。数据湖(Data Lake)是一个中央信息存储库,以存储原生或原始格式大量原始数据,且其格式可以是结构化的、非结构化的或半结构化的。基于数据湖里面数据,数据分析人员或数据科研工作者就可以挖掘和分析里面的大数据。基本上数据湖这个概念是不断演化的结果,也是伴随着计算机技术发展而不断演化的。另外组织不良的数据湖被称为:数据沼泽。


数据湖演化时间轴

数据集市
在 1970 年代初期, AC尼尔森为他们的客户提供了一个数据集市,以数字方式存储信息并加强他们的销售工作。“数据集市”是存储的、通常结构化的数据的档案,通常由特定社区或部门使用和控制。它通常比数据仓库更小、更集中,目前通常是数据仓库的一个细分。数据集市是数据仓库和数据湖物理现实的第一步。

目前,数据集市分为三种基本类型:

  • 独立数据集市不是数据仓库的一部分,与 ACNielson 提供的原始数据集市非常相似。他们通常专注于一个业务领域或主题领域。数据可以来自外部和内部来源。然后将其翻译、处理并加载到数据集市中,在那里存储直到需要。
  • 相关数据集市内置于现有数据仓库中。使用自上而下的方法,支持将所有数据存储在一个集中位置。然后选择明确定义的数据部分用于研究。
  • 混合数据集市结合了从数据仓库和“其他”数据源获取的数据。这在多种情况下都很有用,包括提供与已添加到组织的新组或产品的临时集成。混合数据集市非常适合多个数据库环境并提供快速的实施周转。这些系统使数据清理变得容易,并且适用于较小的以数据为中心的应用程序。

数据孤岛
数据孤岛是 数据仓库类似于数据集市,但更加孤立。数据孤岛是隔离的管理系统,无法与其他系统协同工作。数据孤岛包含由一个部门控制并与组织的其他部分隔离的固定数据。由于各个部门的目标和优先级不同,它们倾向于在大型组织内形成。当部门相互竞争而不是作为一个团队朝着共同的业务目标工作时,也会形成数据孤岛。

几十年前,将客户的数据存储在孤岛中被认为是一个好主意。当时(1980 年代末和 1990 年代初),孤岛随着社交媒体和电子邮件服务提供商工具等新技术不断发展,几乎完全隔离的额外安全性似乎是合理的。

数据孤岛通常存储“不兼容的数据”,这些数据被认为足够重要,可以在以后进行转换。(数据集市通常只包含已翻译的数据。)对于许多组织而言,存储了大量数据以供以后翻译。最终,数据孤岛成为处理大数据的数据源。

商业词典描述了一个“筒仓心态”作为一种心态,当组织内的部门或部门决定不想与组织的其他部分共享信息时,就会存在这种心态。这种行为的结果通常被认为对组织产生负面影响。存储相同数据的两个内部孤岛可能具有不同的内容,从而导致对准确性的混淆并质疑至少一个孤岛中数据的年龄。虽然孤岛心态可以提供出色的安全性,但数据孤岛因阻碍生产力和对数据完整性产生负面影响而受到批评。

数据仓库

尽管 Bill Inmon 在 1970 年代提出了数据仓库的概念,但直到 80 年代才开发出数据仓库的架构。数据仓库是信息的集中存储库,可以对其进行研究以做出更明智的决策。数据来自广泛的来源,并且通常是非结构化的。通过使用商业智能工具、SQL 客户端和其他分析应用程序访问数据。一种数据仓库 通常内置于组织的大型机服务器中或位于云中。

标准 提取、转换和加载基于数据仓库的数据仓库在其关键功能中采用数据集成、暂存和访问层。暂存层存储从不同数据源获取的原始数据。集成层通过转换数据并将其移动到操作数据存储数据库来合并数据。然后将这些数据移动到数据仓库数据库,在那里它被组织成层次结构组(称为“维度”)、事实和聚合事实。访问层允许用户检索翻译和组织的数据。

数据湖和云

“云”是一个术语,描述可通过 Internet 获得的托管服务。云允许组织将计算机资源用作类似于电力的公用事业,而不是构建和维护内部计算基础设施。数据湖在云中可用。

目前, 数据湖可用于多种环境,包括云。随着基于云的数据服务的使用不断增长,基于云的数据湖已经开始看起来非常像它们的内部同行。将内部数据湖转移到云的好处包括:

  • 云中的处理和存储服务可以轻松扩展或缩减,使客户无需物理添加更多计算机内存即可扩展存储。
  • 按使用付费模型与扩展和缩减功能相结合意味着可以在高峰负载期间根据需要添加资源,然后在较慢的时间缩减资源。
  • 通过转移到基于云的服务,基础设施管理和维护成本显着降低。

大多数托管云存储使用对象存储架构。示例包括 Amazon Web Services S3(2006 年 3 月)、Rackspace Files(其代码于 2010 年捐赠给开放栈 项目并作为 OpenStack Swift 发布)和 Google Cloud Storage(2010 年 5 月)。

对象存储是一项已有数十年历史的技术,但具有可扩展性优势,并且对于存储各种数据类型非常有效。对象存储传统上用于大数据存储,通常用于存储非结构化数据(图片、电影、音乐)。

云的存储和数据服务不断升级以满足现代数据湖架构的需求,预计基于云的数据湖数量的增长是合理的。数据湖架构的下一个挑战将是寻找从这些数据湖中获取洞察力的新方法。

参考资料
A Brief History of Data Lakes

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,634评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,951评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,427评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,770评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,835评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,799评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,768评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,544评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,979评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,271评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,427评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,121评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,756评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,375评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,579评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,410评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,315评论 2 352

推荐阅读更多精彩内容