散点图和相关性分析

很多时候我们遇到的数据并不是累计的分布数据,而是连续的一些数据,并且我们需要基于这些数据做一些总结和推断,甚至是预测。比如在工作中,我们要根据成本和收入来预测下半年的投入和产出;在生活里,需要看下自己投资的基金、股票金额和回报的整体关系,又或者看自己体重增长和摄入热量的关系,这些其实都是要从数据当中去找趋势规律。

一个最简单的发现数据趋势规律的工具,以及这个工具的使用方法——散点图和相关性分析。

散点图的制作原则

第一,散点图反映的是两个变量之间的关系。因此你要把两个变量分别放在 X 轴和 Y 轴上面,不要有第三个变量放进来进行混淆。当然,散点图的变种——气泡图有更多维度,但是从趋势角度来看,还是要把最重要的两个变量分别放在 X 轴和 Y 轴。

第二,为了能够明确展示数据之间的趋势,我们的 Y 轴必须要从零开始。这点就和很多的柱状图不同了。很多柱状图的坐标轴为了表示数据的清晰,Y 轴可以从一半(比如说 500)开始。另外,散点图坐标轴颗粒度要合适,最终聚成一团或者散列太大,都会让我们无法快速找到趋势。

第三,为了表示趋势的清晰,我们一般都会添加一条趋势线来表明背后的规律。说明一个趋势的趋势线只能有一条,不能有多条特别是出现趋势相交的情况。可别小看这个趋势线,这就是画龙点睛的一笔,背后其实是你对业务、数据、算法深刻的理解和认知。

通过散点图寻找规律

有这三个原则的指导,我们画出来的散点图一般不会错。但是光有图肯定不行,我们如何在图中去找到数据之间的关系呢?

首先是正相关,这个你很容易理解,它就是两个系数的变化基本上画出来以后都在一个直线分布上,此增彼涨,两个变量都一起增加,比如我们上下班的距离和时间。同样,负相关是一个此增彼减斜着向下的趋势,这种方式也比较容易判断。

指数增长和上节课的指数分布有些类似,只不过指数分布计算的是一个加起来的累计分布值,而指数增长指的是两个具体数值的关系。指数级别的变化,一般背后都酝酿着极大的商机和机会。

正 U 型趋势和反 U 型趋势,这两个也是比较常见的趋势线。它的样子其实就像字母的 U,或者是倒过来的 U(从零开始从零结束)。一个比较著名的反 U 型趋势就是经济学里面的“拉弗曲线”( Laffer curve),这条曲线最典型地反映了政府税收收入和税率之间的关系。当税率开始增加时,税收一开始也会随之增加,但是当增加到一定程度,大家就交不起税了,重税导致企业开始倒闭和破产,这时候整体税收反而开始减小,到最终税率为 100% 时,其实企业会全部破产,税收反而是 0 了。

数据分析的艺术就在于通过数据分析和管理经验找到反 U 型最高点,如果你能很好把握你所在公司的反 U 型曲线高点,你大概率是公司的管理层了。

散点图的易错点

过度依赖散点图会造成你的判断错误。最常见的三个错误就是趋势误判、得克萨斯神枪手谬误和幸存者偏差。

趋势误判

趋势误判是指在你看到了一个数据之后,因为数据整体还不够完整,你错误判断了这个数据的未来增长趋势。

当你在拿到一个散点图,要去判断它是哪种数据趋势的时候,一定要看最终的数字偏差和实际情况,才能做出准确判断。趋势线这个画龙点睛的一笔,不是那么容易给出的。通过散点图最终判断是什么模型是非常不容易,很多时候需要非常多的数据和复杂的模型,这也最终导致了人工智能算法的出现,当然这是后话了。现在你只要记住,没有正确的数据验证,千万不要轻易下结论

得克萨斯神枪手谬误

当年在美国西部得克萨斯州发现一个神枪手,他经常在各地的民居的墙上练习射击,几乎他所有的弹孔都集中在十环左右这个中心的区域。他已经成为了神话,人们一直在寻找他。但是当人们真的找到了这个神枪手后,发现他自己打枪其实一点都不准,也不敢跟其他人去决斗。那他墙上的这些靶子和子弹点是怎么形成的呢?后来人们才发现,原来他是先朝墙上开很多枪,然后在弹孔最密集的地方画上了十环的靶子,再把散布在其它地方的弹孔用原来的泥土补起来。这样看上去,他每个地方打的靶子都很准确,因为先有弹孔,再有靶子。

在我们日常生活当中也很容易出现这种情况,当你看到一个数据散点报告的时候,你一定要看清背后所蕴含的实际数据是不是涵盖了所有的数据,还是只给你看了最有这种数据规律的数据。

前者就像先有靶子来瞄准再去射击,后者就好比先射击完最后再画上靶子,这样结果会完全不同。依据数据决策很重要,但是也不要被数据给骗了。

幸存者偏差

我们小的时候,邻居家的小孩永远比我们要更厉害,其实孩子都是差不多的,只不过最后我们看到的是邻居家小孩当中的那些优胜者。在分析散点图的时候看到了规律,还要了解最终这个规律形成的原因和背后的场景,不要简单通过一个图表就得出你的结论。

在工作和生活当中,每天都会有各种各样的事发生,如果我们只是关注事情本身,而没有看到背后的规律,那么我们就会像没有趋势线的散点图一样,都是零散的点,抓不住背后隐藏的那根线,感觉每天都是忙忙碌碌,但其实自己碌碌无为。画这根线就是要找到你生命里的规律,在数据科学里我们叫做算法,生活当中我们叫做哲学。

小到我们自己投资和回报,大到整个宇宙里面星体之间的分布,我们都可以通过散点图来找到背后隐藏的规律。

要做一个正确的散点图,我们需要注意三个要点:

确定两个变量坐标轴;

坐标轴的起始值和颗粒度要合适;

要找到合适的趋势线和趋势模型进行描述。

在使用散点图时,容易犯的错误:

利用散点图做深入数据分析的时候不要轻易下结论(身高和体重在生长期是成正比的,你成年了自然也就不会再是正比了);

不能由现有结果给出趋势判断(做事情无论成功了还是失败了,都不要用上天的安排来麻痹自己),还需要了解规律形成的最终原因和背后的场景;

不要用片面的数据来证明你的规律(不要片面看问题,别人家的孩子真的不比我们好多少)。

此文章为11月Day23学习笔记,内容来源于极客时间《数据分析思维课》,强烈推荐该课

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,492评论 6 513
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,048评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,927评论 0 358
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,293评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,309评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,024评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,638评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,546评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,073评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,188评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,321评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,998评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,678评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,186评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,303评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,663评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,330评论 2 358

推荐阅读更多精彩内容