点赞+留邮箱,即可获得探索性数据分析所有思维导图噢!
「前情提要」
俗话说:“工欲善其事,必先利其器。”做数据分析就跟打牌一样,对手出牌就像分析数据时候经常遇到的问题 & bug,该来的总会要来;想要赢得牌局胜利,亦或是出奇制胜,最重要是你对自己手中的牌(筹码)有多了解,究竟牌好不好,需要构思怎样一个打法,首先得仔细看清、了解牌的大小以及牌和牌之间的combo。做数据分析就如同一场牌局,如果不了解手中的数据,不清楚数据的估计量与分布,是完全做不好数据分析的。
「正文」
了解牌的大小(数据的估计量)是探索数据分析的小餐,对牌的组成(数据的分布)了解才是探索数据分析的重中之重。(想要了解数据估计量的概念和计算方法的小伙伴可以参考上一章 数据分析入门 | 探索性数据「上」 - 简书)。
我们借助数据估计量的「位置」与「变异性」来探索数据是如何分布的。
一、百分位数 & 箱型图
我们在上文中提及如何用百分位数测量数据分布情况,但百分位数在对于总结数据整体分布而言,也十分有帮助。
在很多经营报告里,我们会看到四分位数 or 十分位数(即第10百分位数、第20百分位数......第90百分位数)。
例如,在某视频app视频分析里,常常会依据点击量为指标对不同视频进行划分,前10%的视频,前20%的视频,以此对不同档次的视频进行分类,并根据这些分类找出它们成功的原因,如总结分析一下前10%视频点击量高的原因。
在这里,对百分位数进行可视化的图形是并不太常见的「箱型图」。箱型图是基于百分位数可视化的数据分布。
对箱型图进行详细分析,我们可以看到箱型图的组成是“一个长方形箱子”和“上下两个T型”。箱子顶部和底部(就是长方形的两条长)是第75分位数和第25分位数,中间较粗的横线是中位数,图中的虚线支撑图形中的T,上T是最大值,下T是最小值。剩下的一些圆点则表示的是异常值。理解了箱型图这些定义,就可以迅速明白整个数据集的分布情况,获取百分位数的情况以及最大最小值。
二、频数表 & 直方图
变量的频数表将该变量的极差均匀的切割成多个等距分段,并给出落在每个分段中的数值个数。简单而言,就是一块肉,量肉的最左边到最右边一共多长,将肉均匀地切成10份,顺便量一下每一个块肉分别有多重。
这里的频数表是2010年美国各州人口普查,各州人口数从最少的怀俄明州56万人(西部洛基山区)到人口最多的加利福利亚州3700万(西部沿海),用(3600-56)/10 =360万。这样我们按(56+360)万作为第一组、(56+360*2)万作为第二组......(3700)万作为第十组。注意这里,我们发现第八组、第九组之间是没有州落在其中的,就是我们常说的空组距。
如果我们用频数表来进行球员水平的分层,大概情况是这样:
第十组:乔丹、詹姆斯
第九组:空
第八组:拉塞尔、张伯伦
第七组:魔术师、奥尼尔
第六组:科比、库里
而中间的空组距是有意义的,这是表明中间是有层次的缺失,即我们通常说的,“XXX独一档,中间空两档”。
如果我们读上面的频数表,可能不够直观,因此直方图就顺势而生:其中x轴为组距,y轴为数据的计数。
但应该有以下几点注意:
1.空组距也应包括在直方图中;
2.组距是等宽的;
3.组和组之间是没有间隔的(这里很明显有别于条形图)。
三、探索二元数据、分类数据与条形图
前面我们探究的都是连续性数据,配合箱型图、频数表和直方图已经能对连续性数据分布有一个很清晰的了解。但如果我们面对的是二元变量(YES or NO 、是或否 、对与错)应该如何呢?
总结二元变量的情况,或总结只有几个类别的分类变量,是比较容易实现的。我们只需计算出数据中「1」的比例,或是重要类别出现的比例。举个例子,我们可以计算某个班上同学达到优秀的比例(大于等于90分),而不会计算不优秀的比例(因为这个是大多数,大多数的数据一般意义不大)。
我们一般会对二元数据的探索进行可视化。我们用条形图对分类变量进行可视化,x 轴列出类别,y 轴表示频数或比例。
*注意,我们经常会把条形图和直方图弄混淆,但这里是存在一些差异:
1.x轴:条形图x轴表示变量的不同类别,直方图x轴以数值为度量显示某个变量的值(频率、百分比等);
2.间隔:条形图有间隔、互相独立,直方图各个条形紧紧挨着。
四、相关性与散点图
如果说探索数据分布是摸清楚牌是对还是炸,那想要弄清楚JQK之间有没有COMBO,是JJQQKK,还是JJJQQQKKK,这就是我们接下来要谈论到的相关性。牌与牌之间究竟是没有相关性(JJQKKK的情况),还是强相关(JJJQQQKKK)。
在数据分析案例中,我们经常要检查预测因子之间的相关性,例如在一项A/Btest中,在给定一次实验中探索某个UI的变动对日活、留存是否有影响,就需要使用相关性进行检验。给定变量X和变量Y,它们均有测量数据。如果变量X的高值随变量Y的高值的变化而变化,并且X的低值随Y的低值的变化而变化,那么我们称X和Y是正相关的。如果X的高值随Y的低值的变化而变化,反之亦然,那么我们称变量X和Y是负相关的。
那么如何测量数据与数据之间是相关的呢?首先,数据得保持统一维度,即都是连续型或分类型变量;其次,用「皮尔逊相关系数」来计算相关程度:
将变量X1的平均偏差 * 变量X2的平均偏差,再除以标准偏差之积,计算公式如下。
*但注意,变量的相关性可以是非线性的。在这种情况下,相关系数就不再是一种有用的度量。比如,税率和收入增加之间的关系。当税率由零开始增加时,收入也在增加。但是税率一旦达到一定高的水平并逼近100% 时,这时避税增加了,而税收则实际下降了。
我们一般会用「相关矩阵」来反映各个维度之间的相关性,例如下表被称为相关矩阵,它显示了自 2012 年 7 月到 2015 年 6 月间的电信类股票每日收益间的相关性。
同时,「散点图」也是一种可视化两个变量之间关系的好方法。在散点图中,x 轴表示一个变量,y 轴表示另一个变量,图中的每个点对应于一条记录。从图中可以看到,两支股票的日收益具有强正相关性。在大部分交易日中,两支股票都保持同步涨跌。但还有少数几个交易日,其中一支股票明显下跌而另一支股票上涨,或是相反。
接下来我们介绍更复杂的相关性分析与图表。
此前我们介绍的相关性分析都是「双变量分析」:计算一个变量X与变量Y的关系,例如年龄与收入之间的相关性;
但很多情况下我们需要引入更多的维度,即「多变量分析」:计算两个及以上的变量与变量Y的关系估计量,例如学校、专业与收入之间的相关性;
对于多变量分析而言,以及具有成千上万乃至上百万条记录的数据集,散点图会过于密集,不太合适;
因此对于大规模的数据分析而言,一般会用「六边形图」进行可视化。
六边形图实际上是散点图的变种,x 轴表示一个变量,y 轴表示另一个变量,但此时颜色的深浅则表示数量的多少,而不像散点图用很多个点表示。将记录分组为六边形的组距,并用不同的颜色绘制各个六边形,以显示每组中的记录数。
五、总结
不管是什么数据分析项目,最重要的第一步都是查看数据与数据的分布,这正是探索性数据分析的关键理念所在。通过总结并可视化数据,我们可以对项目获得有价值的洞悉和理解。