Tableau 和大数据

关于 Tableau

        Tableau 是一个完整易用的可视化商业智能(BI)平台,可直接用于企业。通过连接高性能云数据仓库,可以实现大规模快速自助式数据分析,帮助人们查看并理解数据。无论是在本地还是在云端,在 Windows 还是 Linux 上,都可部署使用。


Tableau 和大数据分析生态系统

        Tableau 只是完整的大数据平台架构的重要组成部分之一。组建完整的大数据分析管道可能本身就是一项挑战。Tableau 可以跨平台移动数据、按需调整基础结构、利用新数据类型以及启用新用户和用例的能力。

云基础结构

        越来越多的组织将业务流程和基础结构迁移到云端。由于基于云的基础结构和数据服务已移除本地 Hadoop 数据湖面临的一些主要障碍,因此可以比以往更轻松地实施和管理基于云的大数据分析解决方案。

        Hadoop 以其低成本、横向扩展存储(Hadoop 分布式文件系统 - HDFS)、基于特定用途的处理引擎(首先是MapReduce,然后是 Hive、Impala 和 Spark)以及共享数据目录 (Hive Metastore) 的强大组合,为现代数据湖奠定了基础。

        如今,曾经的共置存储和计算服务可按需单独在云端中扩展。资源还可以更轻松地进行纵向和横向扩展,并且按需定价。总体而言,云端提供更高的效率、更好的管理和服务协调能力。

引入和准备

        在现代“引入和加载”的设计模式中,任何规模或形态的原始数据通常都归于数据湖:一种存储库,能够以原有格式(结构化、半结构化和非结构化)存储大量数据。数据湖通过更快、更灵活的来引入和存储数据,满足现代大数据分析的要求, 可供任何人以各种方式快速分析原始数据。

        社交网络、智能电表、家用自动化设备、视频游戏和 IoT 传感器等不同位置的联网设备和应用不断生成流数据。通常,这种数据通过半结构化数据管道进行收集。虽然可对流数据应用实时分析和预测算法,但通常使用 lambda 架构将流数据按原始格式路由并保存在数据湖(如 Hadoop)中,以便用于分析。Lambda 架构是一种数据处理架构,旨在利用批处理和流处理方法处理大量数据。这种设计克服了在延迟、吞吐量和容错方面的挑战。现在有多种可用于流式处理数据的工具,包括 Amazon Kinesis、Storm、Flume、Kafka 和 Informatica Vibe Data Stream。

        数据湖通过 API 或类 SQL 语言提供经过优化的处理机制,可通过“读取模式”功能转换原始数据。数据进入数据湖后,需要将其引入并做好准备,供分析使用。Tableau 拥有 Informatica、Alteryx、Trifacta 和 Datameer 等合作伙伴,可帮助完成此过程并与顺畅地 Tableau 协同处理。您也可以使用 Tableau Prep 进行自助式数据准备。

存储和处理

        Hadoop 具有出色的恢复能力,成本低,提供横向扩展数据存储、并行处理和群集工作负载管理功能,已用于数据湖。

        尽管 Hadoop 常用作大数据平台,但它并不是数据库。Hadoop 是一个开源软件框架,用于在商用硬件的群集上存储数据和运行应用程序。它能大量存储任意类型的数据,具备执行大型处理能力,能够处理非常多的并行任务或作业。

        在现代分析架构中,Hadoop 提供低成本存储和数据存档,可将陈旧的历史数据从数据仓库移入在线冷存储。它还可用于 IoT、数据科学和其他非结构化的分析用例。Tableau 提供与所有主要 Hadoop 分布的直接连接(通过 Impala 与Cloudera 连接、通过 Hive 与 Hortonworks 连接,以及通过 Apache Drill 与 MapR 连接)。

        数据和数据仓库始终在现代分析架构中占有一席之地,它们将继续发挥重要作用,在整个企业中提供受管控且维度一致的准确数据,以实现自助式报告。即使是采用其他技术(如 Hadoop 和数据湖)的公司,往往也会保留关系数据库作为混合数据源的一部分。Snowflake 是使用本机Tableau 连接器、基于 SQL 的云端原生企业数据仓库的示例。

        Amazon Web Services Simple Storage Service (S3) 和 NoSQL 数据库等对象存储具有灵活的架构,也可用作数据湖。Tableau 支持 Amazon Athena 数据服务连接到 Amazon S3,并提供可直接连接到 NoSQL 数据库的多种工具。常用于 Tableau 的 NoSQL 数据库的示例包括但不限于 MongoDB、Datastax 和 MarkLogic。

        数据科学和工程平台 Databricks 基于 Spark(一种用于批量数据处理和交互式横向扩展数据处理的热门引擎)提供数据处理。通过本机连接器连接到 Spark,您可以在 Tableau 中可视化来自Databricks 的复杂机器学习模型的结果。

查询加速

        虽然您可以对大数据进行机器学习和情绪分析,但人们的第一个问题常常是:交互式 SQL 有多快?说到底,SQL 是服务于业务用户的管道,这些业务用户希望使用大数据获得更快捷、可重复性更高的 KPI 仪表板,实施探索性分析。

这种对速度的需求促进了对更快速数据库的采用,这些数据库利用内存驻留技术和大规模并行处理 (MPP) 技术,如 Exasol 和 MemSQL、基于 Hadoop 的存储(如 Kudu),以及通过预处理实现更快速查询的技术(如 Vertica)。使用 SQL-on-Hadoop 引擎(如 Apache Impala、Hive LLAP、Presto、Phoenix 和 Drill)以及 新一代云原生数据库(如Snowflake OushuDB)时,这些查询加速器进一步模糊了传统数据仓库和大数据领域的界限。

数据目录

        企业数据目录主要充当数据源和常用数据定义的业务术语表,使用户能够更轻松地从受管控和批准的数据源中找到用于制定决策的正确数据。通过扫描引入的数据源,数据目录将由来自表、视图和存储过程中的元数据填充。数据整理工作甚至可以包括知识库信息和 Web 链接,以帮助用户理解数据上下文,并实现更多智能分类和自动数据发现。

参考文献:

《Tableau big data overview_ Whitepaper_zh-CN》

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,755评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,369评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,799评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,910评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,096评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,159评论 3 411
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,917评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,360评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,673评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,814评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,509评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,156评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,123评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,641评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,728评论 2 351

推荐阅读更多精彩内容