统计学下的真相

有人说,建造采石场有利于附近房价的增长。有的人对此嗤之以鼻,但经过考察发现,建造采石场后,附近的房价在五年内平均以3%的速度增长。

我们仅凭常识便可以判断,建造采石场有利于附近房价的增长是不成立的。事实上,在建采石场那年,整个城市的房价都开始增长。无论建不建采石场,房价都会上涨。

忽略房价增长年份和周围房价,仅凭房价在建采石场后连续上涨就得这样的结论,这未免有点草率。说话的人混淆两件事物的相关性和因果性。看到两件事物具有相似的发展趋势,就误认为两者具有相关性,甚至认为两者是互为因果关系。这就犯了统计学错误。

在数据泛滥的今天,数据代表着说服力。虚假片面的数据满天飞。学会一点统计学知识能让我们识别隐含在数据中的谎言,避免因盲信数据而吃亏。在很多人看来,统计学是一门艰深难懂的学科。《简单统计学》告诉你统计学并不晦涩难懂。

《简单统计学》是一本名副其实的统计学轻松入门书。作者加里·史密斯用大量有趣的案例,结合统计学知识向读者讲述案例的错误之处。你会发现,即使是专业人士也会犯一些常识性错误,有些人为了符合假设理论是如何“筛选”数据的,一些集团为了迷惑消费者又如何“歪曲”展现图像。读完整本书,读者会连呼受骗,身边的数据陷进竟是如此多,在观察数据之前不自觉地对其真实性进行思考。

加里·史密斯曾在耶鲁大学任教,擅长结合生活中的实例,深入浅出地剖析其中的统计学错误,也因此两度获得耶鲁大学的教学奖。其课程深受学生欢迎。

《简单统计学》中纠正的统计学错误包含数据收集、数据分析、数据解释三个方面。在数据收集阶段,加里·史密斯着重讲幸存者效应。他将大量的篇幅用在数据分析阶段,揭穿一些人是如何从数据“推导出”想要的理论。在数据处理阶段,作者又提醒你注意有些人如何“歪曲”图表来误导他人。在数据分析阶段,他剖析许多生活现象,揭露某些人歪曲数据本意的方法,给读者还原各种数据真相。

数据收集

人们所做的决策依赖于其对事物的了解。或许你深究每一数据的来源,一丝不苟地收集信息,做大量的调查以保证数据的可靠性。但《简单统计学》提醒你,再细致严谨收集到的数据也可能是不真实的。幸存者偏差和选择性偏差就是很好的例子。

幸存者偏差是由数据收集不完整或者无法收集完整造成的。其最著名的一个例子发生在二战时期。英国皇家空军打算在飞机上安装厚钢板。这样可以帮助飞机抵抗敌军攻击。他们对结束轰炸任务的飞机来收集弹孔和弹片孔的位置。弹孔集中在机翼和飞机尾部,而驾驶舱、发动机和油箱几乎没有弹孔。具体的分布如下图


图1 返航飞机的子弹分布情况  

看到图片,我们很容易得出需要在机翼和飞机尾部加厚钢板的结论。然而,亚伯拉罕·瓦尔德意识到英国皇家空军统计的数据存在幸存者偏差。那些驾驶室、发动机或者油箱中弹的飞机根本飞不回来。所以,接受调查的飞机中弹孔位置大多在机翼、飞机尾部。人们根据他的建议将厚钢板装在驾驶室、发动机和油箱。坠落的飞机果然大大减少。

数据是真实的。机翼和飞机尾部上的确有很多弹孔。但是数据是不完整的。人们忽略了坠毁的飞机,也无法获取这些飞机的弹孔分布情况。如果没有意识到幸存者偏差,人们就会做出一些错误的决定。

类似的还有成功学、大公司的共同特质、股票赚钱的法门等。人们通过调查成功人士的性格、行为习惯,大公司的某些方面的特点,在股票市场中赢很多钱的人是按何种策略投资的。然后,总结出一些共同的特点,称之为“成功的方法”。社会和市场千变万化,成功不只是一个或几个因素导致的。他们对成功的人或公司进行调查,却忽略另外一些具有相同特点而没有取得成功的人、公司。

失败的人和公司有千千万万,原因也各有各的不同。失败的人或公司又难以进入人们的视野。这样一来,人们难以获得完整的数据,基于成功者的调查而得出的结论也就不可靠。

容易误导人的数据也有可能来自选择性偏差。人们自身的选择会导致某些行为或者现象有更大的概率发生。有人认为参与竞争性活动的孩子更自信。也许是自信的孩子喜欢参与具有竞争性的活动,所以人们观察到参加竞争性活动的孩子往往更自信,而不是参加竞争性活动能让孩子更自信。

数据收集是一项繁重的工作,稍不慎就有可能推断出错误的结论。万丈高楼平地起。如果收集数据的基础不稳,推导结论的大厦也不会可靠。具有统计学思维的第一步是要对数据保持敏感和警惕,数据是会说谎的。

数据处理

数据处理是指将数据用图表的形式表现出来。在这一阶段,有人会用些小把戏来误导人们的判断。如忽略坐标的零点,两张图形的单位不一致。下图是山西省从2010年到2016年度GDP总量的不同表示方法。(数据来源于国家统计局)

图2 山西省年度GDP折线图1
图3 山西省年度GDP折线图2

可以看出,图2中的折线走势不明显,增长幅度不大。而图3中的折线则是先迅速增长再进行缓慢增长。造成这种差异的原因在于,图2中的纵轴坐标是从0开始的,而图3的则是从9000开始。如果不仔细看坐标轴,很容易造成不同的感觉。一些别有用心的人会利用这一点,引导人们从感性上相信他的观点。

图表能够方便人们处理数据,还原数据原本面目,但也能帮助制造者引导读者的判断。在数据处理阶段,我们应该反省和警惕图表是否还原事实。

数据分析

矿藏总是深埋地下。要从中获取有意义的信息,必须先对数据进行分析才能得出有意义的结论。

人们发现,很多大师在一举成名之后,在很长的一段时间里都没有超越成名作的作品出现。因为成名之后带来的名利使之浮躁而不能潜心创作?这个解释也许是对的,但还是有点偏主观因素。从一个相对客观的角度——统计学角度来看,这是一种均值回归现象。

均值回归常被用于金融领域,是指当高于或低于均值时,股票价格都有很大的概率出现向均值回归的趋势。

我们可以从测量能力的角度来理解均值回归。如果一个人的能力值为80,他有可能在空间想象能力上得到98分,而在逻辑推理能力上得到50分,在其它方面的表现则在80分上下波动。如果只看到98分的高分,我们应该想到他的综合表现也许没那么高。相反,看到50分的低分,我们考虑到他在其它方面的表现并没有那么低。当我们考察他的综合能力时,极强和极弱的两个方面都没表现出来。

加里·史密斯在书中展示了一些美国职业棒球大联盟选手的击球率。

表1 一些美国职业棒球大联盟选手的击球率

从表1中可以看出,汉密尔顿和冈萨雷斯在2010年的击球率最高,在此之前和之后的一年其击球率都比较低。人们在2010看到冈萨雷斯的表现后,会期待他下一次有更好的表现。但是这前一年或者后一年的击球率都接近职业生涯的平均水平。偶尔有一次突出的表现,在此之前或之后的表现都更接近平均水平,体现了均值回归的趋势。

需要注意的是,均值回归并没有反应一个人的能力变化。它表示的是在一段时间内的平均水平,而人们每次表现会围着平均水平上下波动,有向均值靠近的趋势。所以,在成名作之后的一段时间内,某个大师或者歌手没有作品能超越成名作符合了均值回归的特性。他们的下一次表现也许就恢复之前的水平,而不是继续有更优秀的作品出现。

有时候人们在分析数据时,会出现数据矛盾的现象,而数据是真实的。我们可以通过一个例子来说明问题。下表是某大学四个系的研究生新生录取率。

表2 某大学中四个院系录取情况

从表2中可以看出,每个系的女性录取率都高于男性的,而总的录取率却低于男性录取率。这就是辛普森悖论。在分组中占优势的一方,在总评中却占了劣势。虽然就单项而言,女性录取率高,但是在录取率高的院系中录取的女性人数没有男性的人数多,所以总体上录取的男性人数较多。总的申请人数相近的情况下,由于被录取的男性人数多,所以男性总的录取率比女性的高。因此,考虑权重和混杂因素是数据分析阶段的重要因素。

除了均值回归、辛普森悖论,加里·史密斯还在书中介绍了很多常见的现象,分析一些很多人在数据分析时会犯的错误。例如,截取、忽略某些数据使其符合某种预设的理论,把相关性当做因果性,由数据聚集推导而来的结论。

大部分人不需要像统计学一样专业的知识。一个个精彩的故事,一幅幅形象的图表,没有公式和计算。《简单统计学》揭示了生活中常见的假象和错觉,还原数据的真相。遇到数据时,你会用新的角度来看待它,对其真实性进行评估,不再被数据忽悠。


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,904评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,581评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,527评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,463评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,546评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,572评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,582评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,330评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,776评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,087评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,257评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,923评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,571评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,192评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,436评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,145评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,997评论 25 707
  • 《数据分析的统计基础》的读书笔记 作 者:经管之家、曹正凤 出版社:电子工业出版社 版 次:2015年2月第1...
    格式化_001阅读 9,556评论 1 58
  • 原文地址 通过图片处理我们可以实现很多很炫的效果,比如,修改图片颜色,混合图片等。在这两篇教程里,我们首先了解一下...
    董二千阅读 1,105评论 1 3
  • 说实话,工作将近两年,很少走出自己的舒适区。 所谓舒适区,即一个人习惯的一些心理模式;在这个区域,人会感到自在、舒...
    阿吉阅读 1,401评论 1 7
  • 今天看了个视频,现在心里还好难受!一个学业有成,事业有成的中青年人,因为平时工作太忙,没有注意身体,从发现重疾,到...
    馨雅心向未来阅读 184评论 1 0