数据分析利器 | 一文教你完全掌握“了解数据”的方法论——探索性数据分析「下」

        点赞+留邮箱,即可获得探索性数据分析所有思维导图噢!

「前情提要」


        俗话说:“工欲善其事,必先利其器。”做数据分析就跟打牌一样,对手出牌就像分析数据时候经常遇到的问题 & bug,该来的总会要来;想要赢得牌局胜利,亦或是出奇制胜,最重要是你对自己手中的牌(筹码)有多了解,究竟牌好不好,需要构思怎样一个打法,首先得仔细看清、了解牌的大小以及牌和牌之间的combo。做数据分析就如同一场牌局,如果不了解手中的数据,不清楚数据的估计量与分布,是完全做不好数据分析的。


「正文」


        了解牌的大小(数据的估计量)是探索数据分析的小餐,对牌的组成(数据的分布)了解才是探索数据分析的重中之重。(想要了解数据估计量的概念和计算方法的小伙伴可以参考上一章 数据分析入门 | 探索性数据「上」 - 简书)。

        我们借助数据估计量的「位置」与「变异性」来探索数据是如何分布的。

一、百分位数 & 箱型图

        我们在上文中提及如何用百分位数测量数据分布情况,但百分位数在对于总结数据整体分布而言,也十分有帮助。

        在很多经营报告里,我们会看到四分位数 or 十分位数(即第10百分位数、第20百分位数......第90百分位数)。

        例如,在某视频app视频分析里,常常会依据点击量为指标对不同视频进行划分,前10%的视频,前20%的视频,以此对不同档次的视频进行分类,并根据这些分类找出它们成功的原因,如总结分析一下前10%视频点击量高的原因。

        在这里,对百分位数进行可视化的图形是并不太常见的「箱型图」。箱型图是基于百分位数可视化的数据分布。

箱型图

        对箱型图进行详细分析,我们可以看到箱型图的组成是“一个长方形箱子”和“上下两个T型”。箱子顶部和底部(就是长方形的两条长)是第75分位数和第25分位数,中间较粗的横线是中位数,图中的虚线支撑图形中的T,上T是最大值,下T是最小值。剩下的一些圆点则表示的是异常值。理解了箱型图这些定义,就可以迅速明白整个数据集的分布情况,获取百分位数的情况以及最大最小值。

二、频数表 & 直方图

        变量的频数表将该变量的极差均匀的切割成多个等距分段,并给出落在每个分段中的数值个数。简单而言,就是一块肉,量肉的最左边到最右边一共多长,将肉均匀地切成10份,顺便量一下每一个块肉分别有多重。

频数表

        这里的频数表是2010年美国各州人口普查,各州人口数从最少的怀俄明州56万人(西部洛基山区)到人口最多的加利福利亚州3700万(西部沿海),用(3600-56)/10 =360万。这样我们按(56+360)万作为第一组、(56+360*2)万作为第二组......(3700)万作为第十组。注意这里,我们发现第八组、第九组之间是没有州落在其中的,就是我们常说的空组距。

        如果我们用频数表来进行球员水平的分层,大概情况是这样:

        第十组:乔丹、詹姆斯

        第九组:空

        第八组:拉塞尔、张伯伦

        第七组:魔术师、奥尼尔

        第六组:科比、库里

        而中间的空组距是有意义的,这是表明中间是有层次的缺失,即我们通常说的,“XXX独一档,中间空两档”。

        如果我们读上面的频数表,可能不够直观,因此直方图就顺势而生:其中x轴为组距,y轴为数据的计数。

        但应该有以下几点注意:

        1.空组距也应包括在直方图中;

        2.组距是等宽的;

        3.组和组之间是没有间隔的(这里很明显有别于条形图)。

三、探索二元数据、分类数据与条形图

        前面我们探究的都是连续性数据,配合箱型图、频数表和直方图已经能对连续性数据分布有一个很清晰的了解。但如果我们面对的是二元变量(YES or NO 、是或否 、对与错)应该如何呢?

        总结二元变量的情况,或总结只有几个类别的分类变量,是比较容易实现的。我们只需计算出数据中「1」的比例,或是重要类别出现的比例。举个例子,我们可以计算某个班上同学达到优秀的比例(大于等于90分),而不会计算不优秀的比例(因为这个是大多数,大多数的数据一般意义不大)。

条形图

        我们一般会对二元数据的探索进行可视化。我们用条形图对分类变量进行可视化,x 轴列出类别,y 轴表示频数或比例。

        *注意,我们经常会把条形图和直方图弄混淆,但这里是存在一些差异:

        1.x轴:条形图x轴表示变量的不同类别,直方图x轴以数值为度量显示某个变量的值(频率、百分比等);

        2.间隔:条形图有间隔、互相独立,直方图各个条形紧紧挨着。

四、相关性与散点图

        如果说探索数据分布是摸清楚牌是对还是炸,那想要弄清楚JQK之间有没有COMBO,是JJQQKK,还是JJJQQQKKK,这就是我们接下来要谈论到的相关性。牌与牌之间究竟是没有相关性(JJQKKK的情况),还是强相关(JJJQQQKKK)。

        在数据分析案例中,我们经常要检查预测因子之间的相关性,例如在一项A/Btest中,在给定一次实验中探索某个UI的变动对日活、留存是否有影响,就需要使用相关性进行检验。给定变量X和变量Y,它们均有测量数据。如果变量X的高值随变量Y的高值的变化而变化,并且X的低值随Y的低值的变化而变化,那么我们称X和Y是正相关的。如果X的高值随Y的低值的变化而变化,反之亦然,那么我们称变量X和Y是负相关的。

        那么如何测量数据与数据之间是相关的呢?首先,数据得保持统一维度,即都是连续型或分类型变量;其次,用「皮尔逊相关系数」来计算相关程度:

        将变量X1的平均偏差 * 变量X2的平均偏差,再除以标准偏差之积,计算公式如下。

皮尔逊相关系数计算公式

        *但注意,变量的相关性可以是非线性的。在这种情况下,相关系数就不再是一种有用的度量。比如,税率和收入增加之间的关系。当税率由零开始增加时,收入也在增加。但是税率一旦达到一定高的水平并逼近100% 时,这时避税增加了,而税收则实际下降了。

        我们一般会用「相关矩阵」来反映各个维度之间的相关性,例如下表被称为相关矩阵,它显示了自 2012 年 7 月到 2015 年 6 月间的电信类股票每日收益间的相关性。

相关矩阵

        同时,「散点图」也是一种可视化两个变量之间关系的好方法。在散点图中,x 轴表示一个变量,y 轴表示另一个变量,图中的每个点对应于一条记录。从图中可以看到,两支股票的日收益具有强正相关性。在大部分交易日中,两支股票都保持同步涨跌。但还有少数几个交易日,其中一支股票明显下跌而另一支股票上涨,或是相反。

散点图

        接下来我们介绍更复杂的相关性分析与图表。

        此前我们介绍的相关性分析都是「双变量分析」:计算一个变量X与变量Y的关系,例如年龄与收入之间的相关性;

        但很多情况下我们需要引入更多的维度,即「多变量分析」:计算两个及以上的变量与变量Y的关系估计量,例如学校、专业与收入之间的相关性;

        对于多变量分析而言,以及具有成千上万乃至上百万条记录的数据集,散点图会过于密集,不太合适;

        因此对于大规模的数据分析而言,一般会用「六边形图」进行可视化。

六边形图

        六边形图实际上是散点图的变种,x 轴表示一个变量,y 轴表示另一个变量,但此时颜色的深浅则表示数量的多少,而不像散点图用很多个点表示。将记录分组为六边形的组距,并用不同的颜色绘制各个六边形,以显示每组中的记录数。

五、总结

        不管是什么数据分析项目,最重要的第一步都是查看数据与数据的分布,这正是探索性数据分析的关键理念所在。通过总结并可视化数据,我们可以对项目获得有价值的洞悉和理解。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,445评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,889评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,047评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,760评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,745评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,638评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,011评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,669评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,923评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,655评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,740评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,406评论 4 320
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,995评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,961评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,023评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,483评论 2 342