译者有话说
这是一本非常适合数据架构师或准数据架构师阅读的书!当前IT行业,越来越多的数据仓库基于云环境创建,越来越多的数据仓库要求实时性,越来越多的数仓新技术涌现,数据架构师面临越来越多的挑战。阅读本书,通过见证一个数据平台架构的设计过程,学习一种应对数仓挑战的思路。
章节说明
1 数据平台简介
2 为什么是数据平台而不仅仅是数据仓库
3 利用三大巨头:亚马逊、微软Azure和谷歌变强大
4 将数据导入平台
5 数据组织和处理
6 实时数据处理分析
7 元数据层架构
8 模式管理
9 数据访问和安全
10 利用数据平台提升业务价值
前言
这本书是一次真正的协作,是两个截然不同的人之间的团队合作,他们共享数据,热爱新技术,并解决客户问题。我们(Danil和Lynda)在数据,分析和云IT服务公司合作了五年,在那里我们合作开发了云分析实践。Danil凭借他多年的Hadoop经验,带来了技术上的突破,而Lynda带来了业务前景。我们很早就意识到解决这两个问题是解决实际数据问题所必需的,随着时间的流逝,Danil变得更加面向业务,Lynda变得对云和数据足够了解,甚至可以挑战Danil。 从作为大数据平台的Hadoop迁移到用于数据和分析的云原生平台很容易,我们都喜欢云和大数据的承诺。在雇主的支持下,我们建立了一个内部团队,不仅设计和交付了出色的技术解决方案,而且还设计和交付了使用数据和云实现实际业务成果的解决方案。我们为数十个客户提供了此服务,并且随着时间的流逝,我们开发了一套最佳实践和知识。正是这种经验以及我们独特的技术和业务技能组合,使我们相信,我们可以学习一个非常复杂的技术主题,并使它对于更广泛的受众而言是可以理解的。我们从博客文章和白皮书开始,当Manning打电话问Danil是否要写另一本书(他的第一本是关于Hadoop的)时,一起做似乎是正确和自然的。 我们俩都是行业活动的活跃演讲者,因此我们利用这些机会来为本书构想,并利用听众的反馈来完善它们。我们还同意,我们将编织真实的客户故事,因为我们俩都相信故事使所有学习变得容易。一旦我们意识到我们在如何处理这本书上取得了一致,就别无所求,只能开始打字。花费了将近两年的时间,但是我们都对结果感到非常满意,希望您也是如此。
关于这本书
设计云数据平台旨在帮助您指导设计一个可伸缩且足够灵活以应对不可避免的技术变化的云数据平台。首先,我们将解释“云数据平台”一词的确切含义,重要性以及它与云数据仓库的区别。然后,它转向跟踪数据流入和通过数据平台的流程-从摄取和组织到处理和管理数据。它总结了不同的数据使用者如何使用平台中的数据,并讨论了可能影响云数据平台项目成功的最常见业务问题。
谁应该读这本书
本书专为希望了解数据平台以及如何设计架构以利用云的人员而设计。它足够详细,可以使具有扎实的编程背景的人员能够很好地构建解决方案,并解决技术与业务之间的联系,从而使产品经理以及业务和数据分析师都可以理解这些概念和知识、背后的理由。它详细介绍了诸如流处理与批处理,模式管理和其他关键设计元素之类的主题,但它是一本关于设计的书,而不是编程的书。
章节内容简介
第1章介绍了云数据平台的概念,描述了驱动需求的趋势,并介绍了云数据平台设计的关键构建块。
第2章比较和对比了云数据平台和云数据仓库之间的差异。
第3章对第1章中介绍的简单架构进行了扩展,并将架构中的层映射到AWS,Azure和Google Cloud中的每一个可用工具。
第4章讨论如何将数据放入数据平台-重点介绍通过API从关系数据库,文件,流和SaaS系统获得的数据。
第5章介绍了如何最好地组织和处理数据平台中的数据,并介绍了可配置管道的概念和常见的数据处理步骤。
第6章专门介绍实时数据处理和分析,实时提取与实时处理之间的区别以及如何组织和转换实时数据。
第7章介绍了技术元数据层的重要概念以及为什么需要它,以及技术元数据模型的选项,几个实现选项以及现有的商业和开源解决方案的概述。
第8章介绍了与模式管理相关的长期挑战,提供了几种可能的方法,并讨论了如何在现代数据平台中处理模式演变。
第9章讨论了不同类型的数据使用者和数据访问点,包括数据仓库,应用程序访问,机器学习用户以及BI和报告工具。
第10章通过描述数据平台用于推动业务价值的方式来总结本书,并讨论了与确保数据平台项目成功相关的许多组织挑战。