1.文件与数据
Tableau使用的数据结构必须是标准的关系型数据库中的二维表结构。
1.1 Tableau文件类型
文件类型 | 文件大小 | 使用场景 | 具体内容 |
---|---|---|---|
数据源.tds | 小 | 频繁使用的数据源 | 完整的数据源定义 |
数据提取.tde | 大 | 数据源为远程,希望提高库性能 | 筛选出的部分或完整的源数据本地副本 |
工作薄.twb | 小 | 默认保存方式 | 仅包括数据源定义和可视化图表定义,无源数据 |
工作薄.twbx | 大 | 与无法访问源数据的用户分享工作结果 | 所有信息和源数据 |
1.2 数据整理操作
- 名称与重命名
- 更改数据类型:数值、日期、字符、逻辑
- 字符型变量:别名、数值拆分
- 数值型变量:数值分段(创建级)
- 创建:新变量(创建计算字段)、数据组
- 隐藏数据列
1.3 重复测量数据的记录方式
- 宽型:每一个个体被记录为一个Case,所有不同时间所进行的相同测量被记录在不同的变量中,仅在一行数据呈现。
- 长型:每一次测量被单独记录为一个Case,所有不同时间所进行的相同测量被记录在不同行中,用多行数据呈现。
- 如果原始数据是宽型数据,先用Python或用Tableau的数据透视表进行长宽转换。
1.4 纬度和度量
纬度:对应(无序/有序)分类变量,用于对案例进行分组
- 字符串变量、日期时间变量、布尔(逻辑)变量默认设为维度
- 强行将连续变量拖动为维度
- 数据桶:分段后的数据桶会被作为维度
- 度量名称:代表所有度量变量的集合
度量:对应连续变量,在图表中呈现为原始信息或汇总信息
- 数值变量默认设为度量
- 强行将字符串变量拖动为度量
- 记录数:代表符合筛选条件的案例数量
- 度量值:代表相应度量的汇总数值,常与度量名称联合使用
2.制表
2.1 表格类型
叠加表(Stacking)
屏幕快照 2018-04-29 22.12.42.png
- 指在同一张表格中对两个变量进行描述,或在表格中有一个维度的元素是由两个以上的变量构成。
- 叠加表可以被理解为,为两个变量分别绘制两个简单的报表,然后拼接(可以横行拼接)。
交叉表(Crosstabulation)
- 观察两个分类变量间联系时常用表格,它的两个维度都是由分类变量的各类别(及汇总)构成。
嵌套表(Nesting)
屏幕快照 2018-04-29 22.18.34.png
- 显示两个分类变量的联系,两个变量被放置在同一个表格维度中,即该维度由两个变量的各种类别组合构成。
- 嵌套表不如交叉表直观,但当每个单元格内需要呈现的统计指标非常多时,嵌套表更为美观和紧凑。
多层表(Layers)
屏幕快照 2018-04-29 22.23.34.png
- 如果指定层元素,表格就由二维扩展到三维,即多层表。
- 多层表每次观察到其中的一层,而嵌套表每次可以观察到所有层。
复合表
- 叠加-交叉表:一个维度是分类变量,另一个维度是两个变量的叠加。
- 嵌套-交叉表:一个维度是分类变量,另一个维度是两个分类变量的嵌套。
2.2 制表步骤
- 确定表格结构与行列构成,是否在表格中出现多个元素的嵌套,有多少种汇总,是否有嵌套汇总等。
- 绘制表格的基本结构。
- 完善细节,使单元格的输出格式符合要求。
- 添加其余变量、统计量到表格中。
- 对表格的附加文本和格式进行修饰。
- 最后审核绘制的表格,查缺补漏。
3.绘图
3.1 统计图的分类框架
- 根据呈现变量的数量,将统计图分为单变量图、双变量图和多变量图。
- 根据相应变量的测量尺度进行更细划分。
3.2 单个-分类变量
- 简单条图:按分类区分直条,直条高度代表频数大小。
- 分段条图:按分类区分颜色,条段大小代表频数/构成比大小。
- 饼图:饼块大小代表频数/构成比大小。
- 气泡图:气泡大小代表频数/构成比大小。
3.3 单个-数值变量
直方图
- 对数值进行分组频数汇总,呈现整个取值区间上的数据分布特征。
- Tableau是通过对原始数据生成分段变量(数据图)来实现。
箱图
- 使用百分位数体系刻画整个取值区间。
- 箱体最中间的粗线为P50(中位数),方框上下界为P75和P25(四分位数)。
- 数据用散点的方式表示。
- 与四分位数(即方框上下界)的距离超过1.5倍四分位间距(即方框长度)的都会被定义为离群值,相应的界限在图中以线段表示。
- 所有数值均未超界时,该线段就是最大/最小值。
3.4 数值因变量
- 条图:呈现分类自变量的影响,同时衍生出点图。
- 线图:单线图呈现时间变量的影响,双线图提供两个纵轴尺度对比数值相差较大的两个指标,同时衍生出面积图。
- 散点图:呈现连续自变量的影响
3.5 分类因变量
- 基本使用各类条图对数据进行呈现。
- 复式条图:呈现两个分类变量各个类别组合情况下的频数分布。
- 分段条图:主要突出一个分类变量各类别的频数,并在此基础上表现两个类别的组合频数情况。
- 百分条图(马赛克图):呈现在一个变量不同类别下,另一个变量各类别的百分比变化情况。
- 树状图:将两个分类变量置于同等地位,直接显示各个组合单元格所占百分比。
3.6 更复杂的图形
- 呈现多个变量的关系:用线图/条图的组合对二维图进行扩充。
- 统计地图:与Tableau地图数据结合,或自定义地图数据。
- 甘特图:异化的条图,反映项目进展是否按时间计划进行。
- 标靶图:在条图的基础上增加目标值,反映任务完成情况。
- 词云:反映各词汇在语料库中的出现频次。