今天继续数据湖的话题,主要是梳理一下数据湖的前世今生。开始前,简单回顾一下知识点。数据湖(Data Lake)是一个中央信息存储库,以存储原生或原始格式大量原始数据,且其格式可以是结构化的、非结构化的或半结构化的。基于数据湖里面数据,数据分析人员或数据科研工作者就可以挖掘和分析里面的大数据。基本上数据湖这个概念是不断演化的结果,也是伴随着计算机技术发展而不断演化的。另外组织不良的数据湖被称为:数据沼泽。
数据集市
在 1970 年代初期, AC尼尔森为他们的客户提供了一个数据集市,以数字方式存储信息并加强他们的销售工作。“数据集市”是存储的、通常结构化的数据的档案,通常由特定社区或部门使用和控制。它通常比数据仓库更小、更集中,目前通常是数据仓库的一个细分。数据集市是数据仓库和数据湖物理现实的第一步。
目前,数据集市分为三种基本类型:
- 独立数据集市不是数据仓库的一部分,与 ACNielson 提供的原始数据集市非常相似。他们通常专注于一个业务领域或主题领域。数据可以来自外部和内部来源。然后将其翻译、处理并加载到数据集市中,在那里存储直到需要。
- 相关数据集市内置于现有数据仓库中。使用自上而下的方法,支持将所有数据存储在一个集中位置。然后选择明确定义的数据部分用于研究。
- 混合数据集市结合了从数据仓库和“其他”数据源获取的数据。这在多种情况下都很有用,包括提供与已添加到组织的新组或产品的临时集成。混合数据集市非常适合多个数据库环境并提供快速的实施周转。这些系统使数据清理变得容易,并且适用于较小的以数据为中心的应用程序。
数据孤岛
数据孤岛是 数据仓库类似于数据集市,但更加孤立。数据孤岛是隔离的管理系统,无法与其他系统协同工作。数据孤岛包含由一个部门控制并与组织的其他部分隔离的固定数据。由于各个部门的目标和优先级不同,它们倾向于在大型组织内形成。当部门相互竞争而不是作为一个团队朝着共同的业务目标工作时,也会形成数据孤岛。
几十年前,将客户的数据存储在孤岛中被认为是一个好主意。当时(1980 年代末和 1990 年代初),孤岛随着社交媒体和电子邮件服务提供商工具等新技术不断发展,几乎完全隔离的额外安全性似乎是合理的。
数据孤岛通常存储“不兼容的数据”,这些数据被认为足够重要,可以在以后进行转换。(数据集市通常只包含已翻译的数据。)对于许多组织而言,存储了大量数据以供以后翻译。最终,数据孤岛成为处理大数据的数据源。
商业词典描述了一个“筒仓心态”作为一种心态,当组织内的部门或部门决定不想与组织的其他部分共享信息时,就会存在这种心态。这种行为的结果通常被认为对组织产生负面影响。存储相同数据的两个内部孤岛可能具有不同的内容,从而导致对准确性的混淆并质疑至少一个孤岛中数据的年龄。虽然孤岛心态可以提供出色的安全性,但数据孤岛因阻碍生产力和对数据完整性产生负面影响而受到批评。
数据仓库
尽管 Bill Inmon 在 1970 年代提出了数据仓库的概念,但直到 80 年代才开发出数据仓库的架构。数据仓库是信息的集中存储库,可以对其进行研究以做出更明智的决策。数据来自广泛的来源,并且通常是非结构化的。通过使用商业智能工具、SQL 客户端和其他分析应用程序访问数据。一种数据仓库 通常内置于组织的大型机服务器中或位于云中。
标准 提取、转换和加载基于数据仓库的数据仓库在其关键功能中采用数据集成、暂存和访问层。暂存层存储从不同数据源获取的原始数据。集成层通过转换数据并将其移动到操作数据存储数据库来合并数据。然后将这些数据移动到数据仓库数据库,在那里它被组织成层次结构组(称为“维度”)、事实和聚合事实。访问层允许用户检索翻译和组织的数据。
数据湖和云
“云”是一个术语,描述可通过 Internet 获得的托管服务。云允许组织将计算机资源用作类似于电力的公用事业,而不是构建和维护内部计算基础设施。数据湖在云中可用。
目前, 数据湖可用于多种环境,包括云。随着基于云的数据服务的使用不断增长,基于云的数据湖已经开始看起来非常像它们的内部同行。将内部数据湖转移到云的好处包括:
- 云中的处理和存储服务可以轻松扩展或缩减,使客户无需物理添加更多计算机内存即可扩展存储。
- 按使用付费模型与扩展和缩减功能相结合意味着可以在高峰负载期间根据需要添加资源,然后在较慢的时间缩减资源。
- 通过转移到基于云的服务,基础设施管理和维护成本显着降低。
大多数托管云存储使用对象存储架构。示例包括 Amazon Web Services S3(2006 年 3 月)、Rackspace Files(其代码于 2010 年捐赠给开放栈 项目并作为 OpenStack Swift 发布)和 Google Cloud Storage(2010 年 5 月)。
对象存储是一项已有数十年历史的技术,但具有可扩展性优势,并且对于存储各种数据类型非常有效。对象存储传统上用于大数据存储,通常用于存储非结构化数据(图片、电影、音乐)。
云的存储和数据服务不断升级以满足现代数据湖架构的需求,预计基于云的数据湖数量的增长是合理的。数据湖架构的下一个挑战将是寻找从这些数据湖中获取洞察力的新方法。