0x01 对比型数据可视化
高度差异/宽度差异:柱状图、条形图。
面积差异:面积图、气泡图。
字号差异:单词云图。
形状差异:星状图。
1.柱状图
重叠型柱状图:适合两个类别的数据对比,半透明柱形条,代表某项指标的「目标值」,内部偏窄且不透明的柱形条表示某项指标的「实际完成情况」。通常会搭配折线图使用,折线图则表示目标完成率。
堆叠柱状图:适合既要对比总体的数据,又要对比总体各构成项的数据,但是总体各构成项一般不要大于5个,若大于5个,可按占总体的比例进行归类,展示TOP5的分类,剩下则归为「其他」。
2.条形图
可以展示更多的数据条数,一般不要超过30条。若分类项的文本过长时可使用条形图。
3.面积图
按照对比方式的不同,面积图可以分为:「重叠对比型面积图」和「堆砌对比型面积图」
当需要分析各个系列,随时间的变化趋势时,此时使用「重叠对比型面积图」比较合适;(独立)
当既需要分析整体随时间的变化趋势,又要了解整体的各构成项随时间的变化趋势时,使用「堆砌对比型面积图」比较合适。(包含)
4.气泡图
在散点图中,圆点的面积是相同的。而气泡图,是通过气泡的面积大小来对比数据的图形方式,它除了可以反映散点图中坐标点X、Y的相关关系,还有一个维度的数据可以映射到气泡的面积大小上,因此「气泡图」可以在二维平面展示三维信息的数据。
如上图所示,左侧的气泡图,每个气泡展示了三个属性的信息,X-代表人均GDP,Y-代表对应国家的平均寿命,Z-即气泡的大小,代表对应国家的人口数量。所以,相较于散点图而言,气泡图除了可以展示X、Y两个变量间的相关关系,同时还可以对比主体另一个维度的数据,并且这个数据是映射到气泡的大小上的。
5.单词云图
6.雷达图/星状图
当需要对比一个主体、或多个主体本身,在不同维度上的特征时,雷达图和星状图是不错的选择。
雷达图可以视为是星状图中的一行记录。而且,一般情况下,会给予不同维度上的数值一定的权重,从而算出各个主体的综合得分,我们的芝麻信用分就是这么来的。
0x02 分布型数据可视化
数据的分布特征,是统计学中「描述性统计」模块研究的内容。要对数据的分布情况进行可视化呈现,首先需要了解数据的描述性度量(集中趋势、离散程度、偏态和峰度),通过这些反映数据分布特征的关键指标,才能确定能够使用哪些图表来进行可视化展示。
1.直方图
我们常用的直方图,主要有「频数直方图」和「频率直方图」,它们都是用于展示离散型分组数据的分布情况。
2.茎叶图
3.箱线图
一组数据中的四分位数,加上这组数据的最大值、最小值,这5个特征值,就可以绘制一个箱线图。
箱线图释义:
箱子的中间一条线,是数据的中位数,代表了样本数据的平均水平。
箱子的上下限,分别是数据的上四分位数Q3和下四分位数Q1,这代表箱体部分包含了数据集中50%的数据,因此,箱子的宽度(四分位距=Q3-Q1)在一定程度上反映了数据的离散程度。
在箱子的上方和下方,又各有一条线,有时候代表着最大最小值,有时候代表的是上下内限。如果有点位于内限之外,理解成“异常值”就好。
箱线图常用的场景有如下几类:
(1)对比多组数据的分布情况。
(2)检测数据中的异常值或离群点。
4.概率密度图
若要描述连续型随机变量其分布规律,概率密度图是一种很直观表现形式。
通过图形化的方式,我们可以清楚的看到随机变量分布的对称性情况,以及随机变量取值是集中还是分散,这些可以通过偏态系数和峰度系数来度量,此处不深入阐释。
5.散点图/气泡图
6.热力图
业务数据分析:带有地理信息属性的数据、或者离散时间属性的数据,也可以使用热力图来进行数据展示。
7.地图
0x03 作业
Q1:比较三家电商公司在消费者心中的印象评分
code:
Q2:用户想了解这50家店铺的收入、成本和店铺综合评分的分布,请问用什么图形展示,请用可视化工具进行实现。