网上有人称之为“大数据时代的梵高”,虽有盛誉之嫌,真正爱上Tableau的软件,也算实至名归。它的可视化效果,在BI领域算得上独树一帜,引领同行。
诞生于2003年的Tableau,基于斯坦福独有的专利数据技术 VizQL,这个专利技术创新性地把拖动等可视化操作转化为底层的查询和计算语言,然后通过图形化方式表达出来,就是我们看到的无与伦比、夺人眼球的可视化了。
Tableau有一定的进入门槛,但并非不可逾越,这依赖于每个人对业务的理解而非技术背景。相比传统的BI和同行,Tableau入门足够容易,因此能在最短的时间内应用于业务转化为价值;同时Tableau学习的坡道很长,因此分析师可在不断学习中建立自己的价值壁垒。
一、了解Tableau的基本概念
Tableau简单的背后有自己的框架体系,这里涉及到几个重要的概念:字段类型与特征、数据类型、详细级别、聚合方式和操作顺序。尤其是后面三个概念,要在不断的练习和犯错的过程中增加理解和认识。
1、字段类型
所有的字段都会默认分为维度和度量。简单的说,维度代表分类,度量代表数量。
从分析的角度,我们可以把维度分为更细的两类:分类字段和次序字段,后者其实是带有顺序的次序字段。这个分类的主要目的是为了理解字段属性:连续和离散——这是数据库中非常重要的概念,不同的属性代表不同的相关关系,对应不同的可视化形式。多数情况下,维度是离散的,度量是连续的。
每个字段都具有连续或者离散的属性,比如“门店名称”是离散的维度字段,相互之间没有先后关系;而“顾客评价”(比如优秀、满意、良好、不满意)具有明显的高下、先后关系,是具有连续属性的维度字段。最明显的次序字段是年月等日期。
相比之下,度量基本都是连续的数字,比如字段“销售数量”、“消费金额”。
Tableau用两个颜色来代表字段的这个属性:绿色代表连续,蓝色代表离散,这种可视化的方式简单明了。
根据分析的需要,我们可以转化字段的维度、度量类型和字段的连续、离散属性,这样就会引起可视化图形的相应变化。一般而言,维度用来做坐标轴,度量表现内容;连续用来生成折线图等查看波动趋势,而离散生成条形图等查看对比关系。
2、数据类型
Tableau支持丰富的数据类型,主要有:数字(整数)、数字(小数)、字符串、日期、日期和时间、布尔值,以及地理位置。
不同的数据类型对应不同的聚合方式,比如字符串主要对应计数,而数字则会首先对应求和聚合。准确的数据类型,是后期可视化和聚合处理的基础。我们可以看一下官方的类型及标记。
3、详细级别和数据聚合
大数据软件,会对数据默认执行聚合,因此我们需要提前了解什么是聚合、不同字段对应的聚合类型,以及各种聚合的应用场景。而理解聚合的应用场景,需要我们了解数据背后的详细级别(level of detail),这是词语我们会在后面的高级操作,特别是LOD表达式过程中经常提到。
行级别与聚合级别
使用Excel工作时,我们面对的往往是具体的一行一行的数据,诸如 A2/A1的计算,也是行级别的计算;但是当数据量成千上百万,我们更关心的是主题的聚合,比如说每家分行每天的存款金额,而不在乎每一单笔的存款详情,这就需要在分行详细级别做聚合计算,比如sum([deposit]),或者计算平均单笔金额 sum([deposit])/countd([order ID])。
面对大数据的海量数据,我们必须清晰自己在哪个数据层面做分析,是什么详细级别的聚合问题,只有对业务的类型有清晰的理解,才能作出恰当的可视化效果。我的思考方式是假想一座冰山,把各种字段放在冰山之中,不同的问题,其数据必定在某个层面上,这就是它所在的详细级别。
维度的聚合方式
维度的数据类型以字符串、日期、地理位置为主;
可以采用“最小值”、“最大值”、“计数”或“计数(不重复)”的形式聚合视图中的维度。当聚合维度时,将创建一个新的临时度量列,使维度实际具有度量的特征。
度量的聚合方式
向视图中添加度量时,Tableau 会自动对它的值进行聚合。常见的聚合包括总和、平均值和中值,还有计数、方差、标准差等多个聚合方式。
在Tableau中更改聚合方式非常简单,只需要右键重新选择“度量”聚合方式即可自动完成。
4、操作顺序
Tableau中有很多的操作,比如维度筛选器、顶部筛选器,在一个视图中,Tableau需要明确它们的执行前后顺序,这是学习Tableau的必备知识。我们经常遇到可视化的结果和预期结果不同的情况,大部分是没有了解和掌握这个操作顺序。
数据分析的数据操作是不断叠加的,就像是PS中的图层,比如数据提取筛选器最先执行,就相当于PS的底层,数据视图层面的上下文筛选器相当于第二层,它在底层的基础上进一步筛选。其他类似,一步步递进。
二、Tableau的基本用法:计算字段、组、集、参数、数据桶
1、拆分、合并字段
变换-自定义拆分
创建-计算字段
2、创建文件夹和分层结构
3、计算字段
创建组 一线/二线/三线城市
创建参数
4、数据桶:将数据制成区间,方便制作直方图、条形统计图
5、数据类型中的地理角色
为数据设置地理角色