tableau属于比较简单的可视化工具,但长时间不使用也会忘记一些操作,这里对tableau进行全方位复习。
一、认识 Tableau 数据
1.1 数据角色
Tableau 连接数据后会将数据显示在工作区的左侧,我们称之为数据窗口。数据源窗口的上方为维度窗口,下方为度量窗口,分别用来显示导入的维度字段和度量字段。维度和度量是 Tableau 的一种数据角色划分方式,离散和连续是另一种划分方式。
蓝色字段,绿色字段
tableau 在视图中以不同的方式表示数据,具体取决于字段是离散字段(蓝色)还是连续字段(绿色)。
==这个是字段类型,Abc就是文本型,#是数值
如果有些错了,可以在 Tableau 中,在“数据源”页面或工作表“数据”窗格页面中更改字段的数据类型。
1.4 字段简单处理
数据解释器可以帮助我们快速检测并绕过标题、注释、页脚、空单元格等内容,从而有效识别数据集中的实际字段和值。
如果数据中有包含多个信息单元的字符串字段(例如,客户的名字和姓氏),基于分析的需要,将该字段中的值拆分为多个单独的字段。这个时候我们就可以使用 Tableau 中的“拆分”或“自定义”拆分选项,基于分隔符或字段的每一行中存在的重复值模式来分隔值。一般可以通过在“数据源”页面或工作表“数据”窗格两种方式进行拆分。
转置(常用且重要的功能)
有时,在 Tableau 中分析以交叉表格式存储的数据可能很困难。在处理 Microsoft Excel、文本文件、和 .pdf 数据源时,可以对数据进行透视,从交叉表格式转换为分列格式。
例如,假设在四个单独的字段中有各大品牌手机的销量,这个时候我们就可以对数据进行透视,让手机品牌位于一个字段中,销量位于另一个字段中。
隐藏
有时,源数据字段过多,为了便于分析,我们可以暂时隐藏不需要的字段列。例如,在四个品牌手机中,我们只想单独分析苹果手机销量,这个时候我们就可以先把其他三个手机的字段隐藏掉。
二、支持导入的数据类型丰富多样
2.1 本地文件数据
2.1.1 Excel 文件
如果 该 Excel 文件只有一个 sheet 页,默认为该 sheet 页数据;
如果 该 Excel 文件只有多个 sheet 页,默认读取多个 sheet 页,并在数据源页面“工作表”区域显示。
2.1.2 文本文件( csv / txt )
Tableau 默认读取同一文件夹下所有文本文件。
例如,当我们连接《金庸武侠小说》文件夹下某一文本文件时,Tableau 会读取该文件夹下所有文本文件( csv / txt )。
2.2 服务器数据
Tableau 支持连接公司数据仓库,包含现在主流使用的 MySQL 和 Hadoop Hive ,需要我们首先下载并安装驱动程序,然后连接。
三、轻松实现数据融合
3.1 数据连接
有时为了得到完整的结果,我们需要从两个或更多的表中获取结果。这个时候就需要借助 Tableau的数据连接功能,基于这些表之间的共同字段,把来自两个或多个表的行结合起来。
Tableau 的数据联接功能类似 Excel 的 vlookup 函数、 MySQL 中的 join 函数、 Pandas 中的 merge函数。
3.2 数据合并
数据合并就是将值(行)从一个表附加到另一个表来合并两个或更多表。它用于数据结构完全一致的数据的合并,合并不会增加新的列,只是将不同文件的数据追加在一起,增加了行数。
比如,下面的订单数据按照地区分别存在三张表里:《东北地区》、《华北地区》、《华东地区》
通过对三张表创建并集,可以合并为一张表
3.3 数据混合关系
数据混合则保持了两个数据源的独立性,可以在每个视图上灵活修改。可以把数据混合理解为数据层面的跨库/表查询。
比如,在《示例 - 超市》表中,有“订单”和“退货”两个 sheet 页,在“订单”表我们可以查询每个类别产品的订单销量,如果我们想要增加退货单量,需要在“退货”表里增加退货字段,这个时候就可以对两张表编辑混合关系,建立一个临时查询视图。
第三章:初阶可视化,思路的简单流淌
一、图表的重要组成部分
1.1 行和列,思路开始实现
行和列添加方式:任意拖拽
度量指标默认聚合:
求和
平均值
中位数
计数
最大值
最小值
A. 字段标签:添加到行或列功能区的离散字段的标签,用于说明该字段的成员。例如,“类别”是一个离散字段,它包含以下三个成员:“家具”、“办公用品”和“技术”。
B. 标题:工作表、仪表板或故事提供的名称,系统会为工作表和故事自动显示标题。
C. 区/单元格:表示视图中所包括的字段(维度和度量)交集的数据。可以用线、条、形状、地图、文本等来表示标记。
D. 图例:描述视图中的数据编码方式的图例。例如,如果您在视图中使用形状或颜色,则图例会描述每个形状或颜色所代表的项。
E. 坐标轴:是在将度量(包含定量数值信息的字段)添加到视图时创建的。默认情况下,Tableau 会针对此数据生成连续的轴。
F. 横坐标字段名或标签:字段的成员名称。
G. 说明:描述视图中的数据的文本。说明可以自动生成,并且可以打开和关闭。
1.3 页面卡,制造画布分身
将一个字段拖放到页面卡会形成一个页面播放器,播放器可让工作表更灵活。
例如,当我们把“订单日期”字段拖到“页面卡”中,在视图区右边会自动出现一个“年(订单日期)”的播放器。单击播放器的播放键,可以让视图动态播放出来。
1.4 筛选器,有效过滤图表信息
有时候只想让 Tableau 展示数据的某一部分,比如只看2015年各类别销售额,这时可通过筛选器完成上述选择。
1.5 标记卡,施展视觉魔法棒
A. 颜色:依据维度和度量字段显示不同的标记颜色
B. 大小:依据维度和度量字段表达大小
C. 标签:将一个或多个字段标签显示在视图中
D. 详细信息:依据字段分解细化视图
E. 工具提示:鼠标悬停时显示工具提示中字段的信息
F. 形状:在视图中标记不同的形状,一个图只能有一个标记形状
二、常用图表必知必会
2.1 基本表
2.1.1 概念
基本表,又称作文本表、交叉表,即一般意义上的表格,它是一种最为直观的数据表现方式,在数据分析中具有不可忽视的作用
2.1.2 应用场景
可以代替冗长的文字叙述,便于计算、分析和对比
2.1.3 业务实例
在《示例 - 超市.xls》订单数据中,我们想要分析各个类别、子类别的销售额和例如数据,就可以创建一个基本表进行对比、分析,然后对类别、子类别按照销售额进行排序,就可以快速得到每个类别下排名TOP3的子类别:
家具TOP3:书架、椅子、桌子
技术TOP3:复印机、电话、设备
办公用品TOP3:器具、收纳具、装订机
2.2 条形图
2.2.1 概念
条形图,又称条状图、柱状图、柱形图,是最常使用的图表类型之一,它通过垂直或水平的条形展示维度字段的分布情况。
2.2.2 应用场景
最适宜比较不同类别的大小。
2.2.3 业务实例
在《示例 - 超市.xls》订单数据中,我们想要直观的对比各个子类别的销售额大小,就可以创建一个条形图,然后对子类别按照销售额进行排序,就可以非常直观的对比各个子类别销售额的大小,并且能够一目了然的得出TOP3销售的子类别
书架
器具
椅子
2.3 直方图
2.3.1 概念
直方图与条形图类似,主要区别在于条形图的横轴为单个类别,不用考虑纵轴上的度量值,用条形的长度表示各类别数量的多少;而直方图的横轴为对分析类别的分组( Tableau 中称为分桶),横轴宽度表示各组的组距,纵轴代表每级样本数量的多少。
2.3.2 应用场景
适用于对类别进行分组统计分析。分组的原因可能是因为类别是连续的,或者类别虽然离散但是数量过多,可以视为近似于连续,当然也可以基于某种业务需要。
2.3.3 业务实例
在《示例 - 超市.xls》订单数据中,我们想要分析每一笔订单销售额大小,但是销售额的数据小则两位数,大则上万,分散比较零散,因此,如果想要得到一个比较好的分析结果,需要对销售额的数据进行分组,根据销售额数据跨度,分成(0, 5000],(5000, 10000],(10000, 15000],(15000, 20000],(20000, 25000],(25000, 30000],(30000, 35000],35000以上,然后通过直方图进行展示,可以非常直观的得出以下结论:
随着销售额的增大,订单数量在不断减少
92%的订单销售额分布在(0, 5000]的区间
6%的订单销售额分布在(5000, 10000]的区间
2%的订单销售额分布在10000以上
①首先对销售额进行分桶
②用直方图展示每一组成交量
2.4 折线图
2.4.1 概念
一种以折线的上升或下降来表示统计数量的增减变化趋势的统计图。
2.4.2 应用场景
最适用于时间序列的数据。
2.4.3 业务实例
在《示例 - 超市.xls》订单数据中,我们想要分析2015 - 2018年近四年的销售额发展趋势,就可以构建以月为粒度的时间序列的折线图,通过该折线图,能够得出以下结论:
从总体上看,近3年销售额呈现不断上涨的趋势
从季度看,销售额呈现一定的时间序列规律,具体表现为:
每年从第一季度到第四季度销售额逐渐上升
第一季度为淡季,销售额最低
第四季度为旺季,销售额最高
2.5 饼图
2.5.1 概念
用圆形及圆内扇形的角度来表示数值大小的图形。
2.5.2 应用场景
最适合用来展示一个数据系列中各项值的大小与总和的比例。
2.5.3 业务实例
在《示例 - 超市.xls》订单数据中,我们想要对2015 - 2018年近四年的经营情况进行分析,其中一个很重要的维度就是分析不同渠道的盈亏情况,就可以构建饼图对消费者渠道、小型企业渠道以及公司渠道经营质量进行分析。通过该分析,得出以下结论:
总体看,盈利订单贡献了八成的销售额,非盈利订单贡献了两成销售额
小型企业渠道和消费者渠道盈利订单贡献销售额占比超平均水平,表现较好
公司渠道盈利订单贡献销售额占比低于平均水平,表现不好,需要优化
step1:创建计算字段“利润情况”
step2:把“利润情况”拖到列,“细分”拖到行,“销售额”拖到标签,在智能推荐区域选择“饼图”
step3:把“细分”从行拖到列
step4:在标记卡“总和(销售额)”快速表计算中选择“合计百分比”,计算依据选择“表向下”
step5:把“利润情况”和“总和(销售额)”拖到标记卡中的“标签”选项,然后在菜单栏“分析”下拉菜单选择“合计 - 显示行总和”
2.6 圆环图
同饼图
2.7 散点图
2.7.1 概念
用两组数据构成多个坐标点,考察坐标点的分布,判断两变量之间是否存在某种关联关系或总结坐标点的分布规律。
2.7.2 应用场景
用于有效分析不同变量之间的关系,显示能否通过某一变量准确预测另一变量,或者两个变量的变化是否彼此独立。
2.7.3 业务实例
在《示例 - 超市.xls》订单数据中,我们想要研究销售额和利润之间是否存在某种关系,可以将2015 -2018年近四年的销售额和利润构建散点图来观察两者之间的关系,并且借助分析功能中的辅助“趋势线”确定关系公式,通过观察该散点图,可以发现:
当利润大于0时,销售额和利润存在正线性关系,关系公式为:利润 = 0.23*销售额 + 17.43
当利润小于0时,销售额和利润存在负线性关系,关系公式为:利润 = -0.26*销售额 -104.56
2.8 气泡图
2.8.1 概念
通过每个气泡表示维度字段的一个取值,各个气泡的大小或颜色代表了度量值的大小。
2.8.2 应用场景
具有视觉吸引力,能够以非常直观的方式展示数据的大小。
2.8.3 业务实例
在《示例 - 超市.xls》订单数据中,我们想要直观的展示每个省份的销售额大小,就可以通过构建以省为维度的气泡图,气泡颜色越深、气泡越大,代表销售额越多。通过下方气泡图,我们能够一目了然的看出销售额排名前3的省份为:
山东
广东
黑龙江
2.9 树状图
2.9.1 概念
也称树形图,使用一组嵌套矩形来显示数据,也是一种突出显示异常数据点或重要数据的方法。
2.9.2 应用场景
适用于展示数据之间的层级和占比关系。
2.9.3 业务实例
在《示例 - 超市.xls》订单数据中,我们想要按照“地区 - 省份 - 城市”的层级将销售额进行下钻展示,就可以通过构建树状图直观展示,并且通过点击地区就可以直接下钻到省份,点击省份就可以下钻到城市。每个部分的矩形大小和颜色深浅代表销售额大小。矩形形状越大,颜色越深,代表销售额越多。通过观察该树状图,可以发现:
华东地区销售最大,中南地区次之,东北地区第三
对华东地区下钻,排名前三的省份为:山东、江苏、安徽
对山东省下钻,排名排名前三的城市为:……
2.10 靶心图
2.10.1 概念
通过在基本条形图上添加参考线和参考区间,帮助分析人员更加直观地了解两个度量之间的关系。
2.10.2 应用场景
适用于比较计划值和实际值,以此评估指标的表现,比如销售额目标达成率、KPI达成率等。
2.10.3 业务实例
在《3W咖啡销售数据.xlsx》和《3W门店目标额.xlsx》两个数据源中,我们想要看2019年全年的销售目标达成情况,就可以创建靶心图进行直观展示,靶心图中蓝色条代表实际的销售额,参考线代表销售额目标,通过靶心图,可以非常直观的看到:
公司2019年实现销售额3799589,销售目标5067969,目标达成率仅为75%
长城店、望京店、门头沟店、鲁谷店低于平均达成率,需重点关注
三、整合工作表,扔掉PPT
3.1 仪表板
仪表板是若干视图的集合,让我们能同时比较各种数据。例如,我们有一组每天都要审阅的数据,像收入的数据、业绩目标达成的数据、用户数据等,就可以创建一个一次性显示所有视图的仪表板(下图),将这些数据整合到一张仪表板上,而不是导航到单独的工作表。
3.1.1 仪表板功能简介
3.1.2 仪表板布局