有人说,建造采石场有利于附近房价的增长。有的人对此嗤之以鼻,但经过考察发现,建造采石场后,附近的房价在五年内平均以3%的速度增长。
我们仅凭常识便可以判断,建造采石场有利于附近房价的增长是不成立的。事实上,在建采石场那年,整个城市的房价都开始增长。无论建不建采石场,房价都会上涨。
忽略房价增长年份和周围房价,仅凭房价在建采石场后连续上涨就得这样的结论,这未免有点草率。说话的人混淆两件事物的相关性和因果性。看到两件事物具有相似的发展趋势,就误认为两者具有相关性,甚至认为两者是互为因果关系。这就犯了统计学错误。
在数据泛滥的今天,数据代表着说服力。虚假片面的数据满天飞。学会一点统计学知识能让我们识别隐含在数据中的谎言,避免因盲信数据而吃亏。在很多人看来,统计学是一门艰深难懂的学科。《简单统计学》告诉你统计学并不晦涩难懂。
《简单统计学》是一本名副其实的统计学轻松入门书。作者加里·史密斯用大量有趣的案例,结合统计学知识向读者讲述案例的错误之处。你会发现,即使是专业人士也会犯一些常识性错误,有些人为了符合假设理论是如何“筛选”数据的,一些集团为了迷惑消费者又如何“歪曲”展现图像。读完整本书,读者会连呼受骗,身边的数据陷进竟是如此多,在观察数据之前不自觉地对其真实性进行思考。
加里·史密斯曾在耶鲁大学任教,擅长结合生活中的实例,深入浅出地剖析其中的统计学错误,也因此两度获得耶鲁大学的教学奖。其课程深受学生欢迎。
《简单统计学》中纠正的统计学错误包含数据收集、数据分析、数据解释三个方面。在数据收集阶段,加里·史密斯着重讲幸存者效应。他将大量的篇幅用在数据分析阶段,揭穿一些人是如何从数据“推导出”想要的理论。在数据处理阶段,作者又提醒你注意有些人如何“歪曲”图表来误导他人。在数据分析阶段,他剖析许多生活现象,揭露某些人歪曲数据本意的方法,给读者还原各种数据真相。
数据收集
人们所做的决策依赖于其对事物的了解。或许你深究每一数据的来源,一丝不苟地收集信息,做大量的调查以保证数据的可靠性。但《简单统计学》提醒你,再细致严谨收集到的数据也可能是不真实的。幸存者偏差和选择性偏差就是很好的例子。
幸存者偏差是由数据收集不完整或者无法收集完整造成的。其最著名的一个例子发生在二战时期。英国皇家空军打算在飞机上安装厚钢板。这样可以帮助飞机抵抗敌军攻击。他们对结束轰炸任务的飞机来收集弹孔和弹片孔的位置。弹孔集中在机翼和飞机尾部,而驾驶舱、发动机和油箱几乎没有弹孔。具体的分布如下图
看到图片,我们很容易得出需要在机翼和飞机尾部加厚钢板的结论。然而,亚伯拉罕·瓦尔德意识到英国皇家空军统计的数据存在幸存者偏差。那些驾驶室、发动机或者油箱中弹的飞机根本飞不回来。所以,接受调查的飞机中弹孔位置大多在机翼、飞机尾部。人们根据他的建议将厚钢板装在驾驶室、发动机和油箱。坠落的飞机果然大大减少。
数据是真实的。机翼和飞机尾部上的确有很多弹孔。但是数据是不完整的。人们忽略了坠毁的飞机,也无法获取这些飞机的弹孔分布情况。如果没有意识到幸存者偏差,人们就会做出一些错误的决定。
类似的还有成功学、大公司的共同特质、股票赚钱的法门等。人们通过调查成功人士的性格、行为习惯,大公司的某些方面的特点,在股票市场中赢很多钱的人是按何种策略投资的。然后,总结出一些共同的特点,称之为“成功的方法”。社会和市场千变万化,成功不只是一个或几个因素导致的。他们对成功的人或公司进行调查,却忽略另外一些具有相同特点而没有取得成功的人、公司。
失败的人和公司有千千万万,原因也各有各的不同。失败的人或公司又难以进入人们的视野。这样一来,人们难以获得完整的数据,基于成功者的调查而得出的结论也就不可靠。
容易误导人的数据也有可能来自选择性偏差。人们自身的选择会导致某些行为或者现象有更大的概率发生。有人认为参与竞争性活动的孩子更自信。也许是自信的孩子喜欢参与具有竞争性的活动,所以人们观察到参加竞争性活动的孩子往往更自信,而不是参加竞争性活动能让孩子更自信。
数据收集是一项繁重的工作,稍不慎就有可能推断出错误的结论。万丈高楼平地起。如果收集数据的基础不稳,推导结论的大厦也不会可靠。具有统计学思维的第一步是要对数据保持敏感和警惕,数据是会说谎的。
数据处理
数据处理是指将数据用图表的形式表现出来。在这一阶段,有人会用些小把戏来误导人们的判断。如忽略坐标的零点,两张图形的单位不一致。下图是山西省从2010年到2016年度GDP总量的不同表示方法。(数据来源于国家统计局)
可以看出,图2中的折线走势不明显,增长幅度不大。而图3中的折线则是先迅速增长再进行缓慢增长。造成这种差异的原因在于,图2中的纵轴坐标是从0开始的,而图3的则是从9000开始。如果不仔细看坐标轴,很容易造成不同的感觉。一些别有用心的人会利用这一点,引导人们从感性上相信他的观点。
图表能够方便人们处理数据,还原数据原本面目,但也能帮助制造者引导读者的判断。在数据处理阶段,我们应该反省和警惕图表是否还原事实。
数据分析
矿藏总是深埋地下。要从中获取有意义的信息,必须先对数据进行分析才能得出有意义的结论。
人们发现,很多大师在一举成名之后,在很长的一段时间里都没有超越成名作的作品出现。因为成名之后带来的名利使之浮躁而不能潜心创作?这个解释也许是对的,但还是有点偏主观因素。从一个相对客观的角度——统计学角度来看,这是一种均值回归现象。
均值回归常被用于金融领域,是指当高于或低于均值时,股票价格都有很大的概率出现向均值回归的趋势。
我们可以从测量能力的角度来理解均值回归。如果一个人的能力值为80,他有可能在空间想象能力上得到98分,而在逻辑推理能力上得到50分,在其它方面的表现则在80分上下波动。如果只看到98分的高分,我们应该想到他的综合表现也许没那么高。相反,看到50分的低分,我们考虑到他在其它方面的表现并没有那么低。当我们考察他的综合能力时,极强和极弱的两个方面都没表现出来。
加里·史密斯在书中展示了一些美国职业棒球大联盟选手的击球率。
从表1中可以看出,汉密尔顿和冈萨雷斯在2010年的击球率最高,在此之前和之后的一年其击球率都比较低。人们在2010看到冈萨雷斯的表现后,会期待他下一次有更好的表现。但是这前一年或者后一年的击球率都接近职业生涯的平均水平。偶尔有一次突出的表现,在此之前或之后的表现都更接近平均水平,体现了均值回归的趋势。
需要注意的是,均值回归并没有反应一个人的能力变化。它表示的是在一段时间内的平均水平,而人们每次表现会围着平均水平上下波动,有向均值靠近的趋势。所以,在成名作之后的一段时间内,某个大师或者歌手没有作品能超越成名作符合了均值回归的特性。他们的下一次表现也许就恢复之前的水平,而不是继续有更优秀的作品出现。
有时候人们在分析数据时,会出现数据矛盾的现象,而数据是真实的。我们可以通过一个例子来说明问题。下表是某大学四个系的研究生新生录取率。
从表2中可以看出,每个系的女性录取率都高于男性的,而总的录取率却低于男性录取率。这就是辛普森悖论。在分组中占优势的一方,在总评中却占了劣势。虽然就单项而言,女性录取率高,但是在录取率高的院系中录取的女性人数没有男性的人数多,所以总体上录取的男性人数较多。总的申请人数相近的情况下,由于被录取的男性人数多,所以男性总的录取率比女性的高。因此,考虑权重和混杂因素是数据分析阶段的重要因素。
除了均值回归、辛普森悖论,加里·史密斯还在书中介绍了很多常见的现象,分析一些很多人在数据分析时会犯的错误。例如,截取、忽略某些数据使其符合某种预设的理论,把相关性当做因果性,由数据聚集推导而来的结论。
大部分人不需要像统计学一样专业的知识。一个个精彩的故事,一幅幅形象的图表,没有公式和计算。《简单统计学》揭示了生活中常见的假象和错觉,还原数据的真相。遇到数据时,你会用新的角度来看待它,对其真实性进行评估,不再被数据忽悠。