数据湖搭建指南——几个核心问题

1、什么是数据湖?

数据湖是一种技术系统,可以大批量并且廉价的分析结构化和非结构化数据资产。

其实很简单,数据湖的最大魅力在于可以分析一切类型的数据。

自 2010 年首次提出“数据湖”一词以来,采用数据湖架构的组织数量呈指数级增长。 它们支持多种分析功能,从数据的基本 SQL 查询到实时分析,再到机器学习。

image

主要组成:

数据湖由四个主要组件组成:存储层格式化层计算层元数据层

image

2、为什么要使用数据湖?

数据湖架构将数据资产整合到一个集中的存储库中。该存储库将用作对以前孤立的数据进行跨功能分析的根基。此外,来自数据湖的架构有助于数字化驱动的实现。

任何拥有来自物联网传感器或移动应用点击流等来源的大规模非结构化数据都可以采用数据湖架构,这也是未来大数据的发展方向之一。

数据湖与数据仓库

数据湖和数据仓库的相似之处在于它们都支持分析大型数据集。然而,他们实现这一目标的方法在几个关键方面有所不同。

模块化:数据仓库通常是专有的、单一的应用程序,比如使用HADOOP,HIVE等构建数据仓库。而数据湖的特点是其组件的模块化,主要由开源技术和开放格式组成。

架构:数据仓库要求数据在写入或摄取时立即符合 DDL 定义的架构。相比之下,数据湖允许数据自由存储,数据的结构验证在读取时进行。

成本与性能:数据仓库通常以更高的价格提供高性能。用户在将数据插入表之前通常会面临历史记录的聚合,以避免过高的成本。

数据湖将数据存储保持在极具成本效益的存储服务中,因此不会产生过高存储费用。计算资源可弹性伸缩,以最佳方式满足工作负载的需求,无需额外成本。

结构化与非结构化数据:数据仓库专为结构化表格数据集而设计。而数据湖也可用于分析非结构化或半结构化格式的数据。

事实上,数据湖与数据仓库是可以并行的,要结合实际业务情况进行。

3、如何构建数据湖?

高度可用的存储服务是数据湖的第一步。

在将数据转换为更适合分析的格式之前,应以原始格式存储数据。

接下来,连接诸如 Spark 或 Presto 之类的计算引擎以对数据运行计算。

image

总共分四部:

  1. 原始数据进入对象存储
  2. 优化原始数据文件以按大小和格式进行分析
  3. 添加元数据工具来定义模式并启用版本控制 + 发现
  4. 将下游消费者集成到优化的数据资产中

4、数据湖技术路线

在数据湖的每一层架构中,都有许多技术可以组合起来创建数据湖。

存储: 主要云提供商 AWS S3的存储服务最常用于数据湖的存储层。还有许多其他托管和开源存储提供商也完全能够支持数据湖,包括:MinIO、HDFS、IBM 云存储、阿里巴巴对象存储、Wasabi、Ceph、Oracle 云存储、SwiftStack ,和Spaces Object Storage。

数据格式:最简单的格式示例是 CSV 和 JSON,基本都是支持的。还存在专为数据湖用例设计的更专业的格式,如 Parquet、Delta、Iceberg、Avro 和 Hudi。这些格式提高了湖操作的效率,并使事务原子性和时间回溯等功能成为可能。

媒体图像、视频和音频文件相关的非结构化数据格式也常见于数据湖中。

计算:大型的计算引擎必须是分布式的。示例包括 MapReduce 和 Hadoop 等技术、以及 Spark 、Presto、Flink 等等。

元数据:非常的重要,特别是影响到以后的数据治理。

客户端和库:通过 JDBC/ODBC 和其他数据传输接口,可以访问湖中数据。S3 API,BI 工具和 SQL 客户端。

5、应用

数据湖适用于一切分析的场景。

  • 本地数据分析:一旦将数据放入湖中,就无需将其移至其他地方以进行基于 SQL 的分析。让分析师对数据湖数据运行查询,以识别趋势并计算有关业务的指标。
  • 机器学习模型训练:机器学习模型通常需要大量数据来训练以优化其参数,并实现高水平的准确性。数据湖使数据科学家可以重复创建训练和测试集以优化模型。
  • 存档和历史数据存储:除了数据湖提供的直接业务价值外,还可以将它们用作存档历史数据的存储。

6、数据湖的挑战

数据湖周围的生态系统相对较新,在某些情况下使用的技术仍在成熟中。因此,数据湖容易面临一些常见问题。

小文件:一个这样的问题是“小文件问题”,当大量文件(每个文件包含少量数据)出现在数据湖中时就会发生。小文件的问题是它们运行计算和保持最新的元数据统计数据效率低下。

小文件问题的解决方案是运行定期维护作业,将数据压缩到理想大小以进行有效分析。

分区 和查询效率:类似于在仓库表上添加索引的概念,数据湖资产可以通过使用分区来优化聚合或过滤某些字段。分区是指按 Blob 存储上的特定字段或字段集对数据进行物理组织。

在没有意识到这一点的情况下,用户可能会因运行不太适合表分区结构的查询而招致大量成本和等待时间。

共享驱动器:如果没有适当的工作流程和治理,数据湖很容易类似于共享文件夹,多人在其中放置文件,而无需考虑其他用户的预期要求。适当的工作流程是必要的,以避免湖成为数据沼泽。

7、如何避免数据沼泽

数据沼泽是数据湖的退化状态。湖中的表要么返回不准确的数据,要么文件损坏并且查询完全停止运行。

必须保持对插入生产数据集的任何数据的质量和属性有充分的认识。

更多数据湖相关技术与方案分享,欢迎关注 大数据流动

相关技术交流群已经成立,欢迎大家扫码加入

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,033评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,725评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,473评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,846评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,848评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,691评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,053评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,700评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,856评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,676评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,787评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,430评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,034评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,990评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,218评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,174评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,526评论 2 343

推荐阅读更多精彩内容