1 开始界面
你可以在Tableau官网上下载Tableau Desktop(即桌面版)。
打开Tableau Desktop后,你可以看到如下界面:
开始界面的左侧是Tableau所支持的数据连接方式:1)到文件;2)到服务器;3)已保存的数据源。
第一种方式连接的是本地所保存的文件数据,我们可以连接到excel表格、文本文件等。一些公司的年报、绩效数据都是以PDF文件呈现的,Tableau可以识别PDF文件中的表格定义,但是无法识别扫描的PDF文件;统计文件包括SAS、SPSS和R等统计软件的数据集;空间文件就是分析数据时采用离线地图来呈现的数据文件。
第二种方式连接的是服务器端的数据源,包括各种类型的数据库以及云数据平台。
2 打开EXCEL数据源
2.1 界面介绍
单击开始界面左侧的 “Microsoft Excel” 就可以打开相应的excel工作簿。选择相应的文件并点击打开后,Tableau就会跳转到数据源编辑界面。
该界面总共分为3个区域:1)工作表清单;2)表关系区;3)数据预览区。
区域1:工作表清单,这个地方会列出你打开的工作簿中包含的所有工作表;
区域2:表关系区。将工作表拖至此处,表中的数据就会呈现在数据预览区;此外,当你在此处打开了多个表格时,表格之间的关联也会呈现在此处。
区域3:数据预览区。表关系区的表格数据部分会在该处呈现。此外,该区域左上角有两个按钮可以切换数据查看的方式——左侧:预览数据窗格,默认的查看数据方式;右侧:管理元数据窗格,在该窗格下你可以对多个字段进行集中管理。
在图2.1的示例中,“产品销量”下共有两张表格:“库存” 和 “销量”。
*注意:对于Excel中的数据,如果要让Tableau自动识别其中的字段,就要让字段名称使用与数据内容不同的格式。这种格式不同可以是:加粗、字号不同、颜色等,如下图所示:
2.2 实例操作
通过导入自建的“产品销量”工作簿,展示其中的数据。
点击预览区域的左上角可以转换视图:
在这种预览窗格下,你可以对多个字段进行管理,如更改字段名称、字段类别等。
3 表之间的联系
如果我们需要对多个表进行关联分析,就需要在表之间建立联系。在已经打开了一张表格的时候,将另一张需要分析的表格拖动到“表关系区”中,Tableau会自动在两个表之间建立连接关系。
示例:
在“产品销量”工作簿中有“销量”、“库存”两张表格,销量表展示了产品1、产品2和产品3的数据;库存表展示了产品1、产品2和产品5的数据。
此时我们需要建立销量与库存两个表格之间的数据。在打开了“销量”表后,再将“库存“拖至表关系区,就可以看到两张表格之间可以建立的关系类型。
Tableau是按照同名字段来建立联结关系的,其中的关联类型分为:内部、右侧、左侧和完全外部四种。
理解关联类型,就需要将两个表视为两个集合——集合A和集合B。
①内部:相当于求A和B的交集,即A和B所共有的记录。在该示例中,销量和库存所共有的记录为”产品1“、”产品2“,因此以”内部“方式连接后,展示的数据仅包括这两条记录。
②左侧:以集合A为准。这种连接下,包含集合A中所有的记录,以及集合B中与A所共有的记录。在该示例中,采用左侧连接,将包含”销量“中的所有记录,以及库存与销量所共有的记录。
③右侧:与左侧连接正好相反,即包含集合B中所有记录以及A与B所共有的记录。同理,右侧连接后,将包含库存表中的所有记录,以及销量与库存所共有的记录。
④完全外部:取两个集合的并集,包含两个集合中的所有记录。使用完全外部连接两个表后,将包含产品1、2、3和5的所有数据。
上述的4种表格连接方式对应着数据库中的Inner Join、Left Join、Right Join和Outer Join几种关联操作。理解数据连接的概念有助于我们对数据的分析。