一、整体介绍
背景:有时候有些事情,我们无法用言语清晰的表达,我们可以通过图表
学习内容:
1、用哪些图表达哪些数据(如何选择绘图类型)
2、如何诠释一些常见类型的绘图
3、有哪些最佳实践
三种获得数据洞察的方法
①计算并汇总统计信息
描述性统计:均值、中值、标准差(用来查看数据的波动和离散程度)
②跑模型
线性回归、逻辑回归
③绘制图表
直方图、散点图、折线图
数据集:一组由行和列组成的数据
分辨数据类型
①连续的
高度、温度、收入
②分类的
国家、年份、行业
③两者皆是
时间是连续的,月份是分类的
年龄是连续的,但对年龄分组是分类的
二、可视化图类型
1、 直方图:
使用场景:
数据是单一的连续变量,展示数据分布情况
说明:任职0到5年的帝王250人左右
和柱状图对比:柱状图是比较每个类别的高低、大小
说明:任职一年的帝王11人左右
说明:通过调整bin,可设置直方图分布区间
说明:例如我们上面帝王寿命的例子就是单峰
说明:通常根据离群值(零散的,比较少的数据,离群的)的分布,确定左偏还是右偏
说明:比如我们上面的帝王例子就属于低峰
2、箱形图
使用场景:
①当拥有连续的变量,并且连续的变量被分类变量所分割的时候
②当需要对连续变量在不同分类区间进行数据分布的比较的时候
中值:
✭在两个箱体的中心线位置,是整体数据分布的中值(median)是 40.5。
✭也就是说,有一半的皇帝的寿命小于这个数字,有另外一半的皇帝的寿命大于这个数字。
下四分位,上四分位:
✭绘图中有两个箱体,也就是两个长方形的框框,他们从左到右,依次代表了下四分位数,和上四分位数。
✭下四分位数(Lower Quartile),是指有四分之一的数值低于它。也就是说,四分之一的皇帝的寿命低于 27.0 岁,四分之三的皇帝的寿命大于 27.0 岁。
✭同样,上四分位数(Upper Quartile)是四分之三的皇帝的寿命低于 54.0 岁,四分之一的皇帝的寿命大于 54.0 岁。
✭高四分位和第四分位数之间的差值,称为四分位数间距(Inter-Quartile Range)。
箱须:
✭水平的线段成为“箱须(Whisker)”,其定义略微有些复杂。
✭每个箱体首先沿着各自的方向,延长 1.5 倍于“四分位数间距”,但是它们延长至最远不超过实际最远的数据点。
✭也就是说,如果向左的箱须超过了最左面的点,那么只延长到最左面的点。同样,如果向右的箱须超过了最右面的点,那么只延长到最右面的点。
3、散点图
使用场景:
①包含两个连续变量
②查看两个变量之间的关系
相关性:能够将点在多大程度上拟合成一条直线
4、线形图
使用场景:
①拥有两个连续型的变量
②表达两个变量之间的关系
③数据集的获取和观测是连续的,是通过某种方式连接起来的(比如x轴是日期或者时间)
好处:能看到多条线之间的比较(对比)
趋势线
说明:蓝色线是趋势线,可以看到5月份我国的疫情基本已经 遏制住了,趋于平稳
说明:可以看到其他国家3月份中旬疫情呈指数增长
5、柱形图
使用场景:
①拥有一个分类变量
②需要对每个分类进行计数或百分比
6、点图
使用场景:
①拥有一个分类型的变量
②希望在对数坐标,显示每个类别的数值
②希望在每个类别上显示多个值
说明:柱形图和点图有点类似,柱形图我们能看出起点和终点值,从点图中只能看到最大值。有时点图在对数坐标上表示更清晰,如下:
三、颜色和形状
常用的三种场景下,该如何选择颜色
①定性的:区分未被排序的类别
说明:不同类别产品在不同年份的技术采纳度
②顺序的:显示排序的信息
说明:每年不同儿童年龄的蔬菜的摄入量
③发散的:显示高于或者低于的某个中间点
说明:用户对问题选择每个观点(最多)的情况