关于 Tableau
Tableau 是一个完整易用的可视化商业智能(BI)平台,可直接用于企业。通过连接高性能云数据仓库,可以实现大规模快速自助式数据分析,帮助人们查看并理解数据。无论是在本地还是在云端,在 Windows 还是 Linux 上,都可部署使用。
Tableau 和大数据分析生态系统
Tableau 只是完整的大数据平台架构的重要组成部分之一。组建完整的大数据分析管道可能本身就是一项挑战。Tableau 可以跨平台移动数据、按需调整基础结构、利用新数据类型以及启用新用户和用例的能力。
云基础结构
越来越多的组织将业务流程和基础结构迁移到云端。由于基于云的基础结构和数据服务已移除本地 Hadoop 数据湖面临的一些主要障碍,因此可以比以往更轻松地实施和管理基于云的大数据分析解决方案。
Hadoop 以其低成本、横向扩展存储(Hadoop 分布式文件系统 - HDFS)、基于特定用途的处理引擎(首先是MapReduce,然后是 Hive、Impala 和 Spark)以及共享数据目录 (Hive Metastore) 的强大组合,为现代数据湖奠定了基础。
如今,曾经的共置存储和计算服务可按需单独在云端中扩展。资源还可以更轻松地进行纵向和横向扩展,并且按需定价。总体而言,云端提供更高的效率、更好的管理和服务协调能力。
引入和准备
在现代“引入和加载”的设计模式中,任何规模或形态的原始数据通常都归于数据湖:一种存储库,能够以原有格式(结构化、半结构化和非结构化)存储大量数据。数据湖通过更快、更灵活的来引入和存储数据,满足现代大数据分析的要求, 可供任何人以各种方式快速分析原始数据。
社交网络、智能电表、家用自动化设备、视频游戏和 IoT 传感器等不同位置的联网设备和应用不断生成流数据。通常,这种数据通过半结构化数据管道进行收集。虽然可对流数据应用实时分析和预测算法,但通常使用 lambda 架构将流数据按原始格式路由并保存在数据湖(如 Hadoop)中,以便用于分析。Lambda 架构是一种数据处理架构,旨在利用批处理和流处理方法处理大量数据。这种设计克服了在延迟、吞吐量和容错方面的挑战。现在有多种可用于流式处理数据的工具,包括 Amazon Kinesis、Storm、Flume、Kafka 和 Informatica Vibe Data Stream。
数据湖通过 API 或类 SQL 语言提供经过优化的处理机制,可通过“读取模式”功能转换原始数据。数据进入数据湖后,需要将其引入并做好准备,供分析使用。Tableau 拥有 Informatica、Alteryx、Trifacta 和 Datameer 等合作伙伴,可帮助完成此过程并与顺畅地 Tableau 协同处理。您也可以使用 Tableau Prep 进行自助式数据准备。
存储和处理
Hadoop 具有出色的恢复能力,成本低,提供横向扩展数据存储、并行处理和群集工作负载管理功能,已用于数据湖。
尽管 Hadoop 常用作大数据平台,但它并不是数据库。Hadoop 是一个开源软件框架,用于在商用硬件的群集上存储数据和运行应用程序。它能大量存储任意类型的数据,具备执行大型处理能力,能够处理非常多的并行任务或作业。
在现代分析架构中,Hadoop 提供低成本存储和数据存档,可将陈旧的历史数据从数据仓库移入在线冷存储。它还可用于 IoT、数据科学和其他非结构化的分析用例。Tableau 提供与所有主要 Hadoop 分布的直接连接(通过 Impala 与Cloudera 连接、通过 Hive 与 Hortonworks 连接,以及通过 Apache Drill 与 MapR 连接)。
数据和数据仓库始终在现代分析架构中占有一席之地,它们将继续发挥重要作用,在整个企业中提供受管控且维度一致的准确数据,以实现自助式报告。即使是采用其他技术(如 Hadoop 和数据湖)的公司,往往也会保留关系数据库作为混合数据源的一部分。Snowflake 是使用本机Tableau 连接器、基于 SQL 的云端原生企业数据仓库的示例。
Amazon Web Services Simple Storage Service (S3) 和 NoSQL 数据库等对象存储具有灵活的架构,也可用作数据湖。Tableau 支持 Amazon Athena 数据服务连接到 Amazon S3,并提供可直接连接到 NoSQL 数据库的多种工具。常用于 Tableau 的 NoSQL 数据库的示例包括但不限于 MongoDB、Datastax 和 MarkLogic。
数据科学和工程平台 Databricks 基于 Spark(一种用于批量数据处理和交互式横向扩展数据处理的热门引擎)提供数据处理。通过本机连接器连接到 Spark,您可以在 Tableau 中可视化来自Databricks 的复杂机器学习模型的结果。
查询加速
虽然您可以对大数据进行机器学习和情绪分析,但人们的第一个问题常常是:交互式 SQL 有多快?说到底,SQL 是服务于业务用户的管道,这些业务用户希望使用大数据获得更快捷、可重复性更高的 KPI 仪表板,实施探索性分析。
这种对速度的需求促进了对更快速数据库的采用,这些数据库利用内存驻留技术和大规模并行处理 (MPP) 技术,如 Exasol 和 MemSQL、基于 Hadoop 的存储(如 Kudu),以及通过预处理实现更快速查询的技术(如 Vertica)。使用 SQL-on-Hadoop 引擎(如 Apache Impala、Hive LLAP、Presto、Phoenix 和 Drill)以及 新一代云原生数据库(如Snowflake和 OushuDB)时,这些查询加速器进一步模糊了传统数据仓库和大数据领域的界限。
数据目录
企业数据目录主要充当数据源和常用数据定义的业务术语表,使用户能够更轻松地从受管控和批准的数据源中找到用于制定决策的正确数据。通过扫描引入的数据源,数据目录将由来自表、视图和存储过程中的元数据填充。数据整理工作甚至可以包括知识库信息和 Web 链接,以帮助用户理解数据上下文,并实现更多智能分类和自动数据发现。
参考文献:
《Tableau big data overview_ Whitepaper_zh-CN》