你可能经常听到人们使用下面这句话来支撑他们的结论:“我有统计数据来证明。”
我们使用统计数据来揭示战争伤亡人数的增加或减少,来提醒公众注意发病率的变化,来估量一种新产品的销量,来判断某一只股票的赚钱能力,来衡量不同大学的毕业率,来记录不同年龄段的人们性生活的频率,来为很多其他问题提供数据。
统计数据就是用数字表达的证据。这样的证据可能看起来非常动人,因为数字让证据显得非常具有科学性,非常精确,似乎它就代表了“事实”。
但是,耶鲁大学博士加里·史密斯在《简单统计学——如何轻松识破一本正经的胡说八道》一书中却指出:当我们遇到的各种由数据统计得出的结论,有可能是谎言,它们并不必然就证明了它们想要证明的一切。
加里·史密斯是耶鲁大学博士,曾在耶鲁大学任教7年,其间两度获得教学奖,而《简单统计学》这本书则脱胎于他最受欢迎的统计学课程。
在这本书中加里运用简单的统计学原理揭示了生活中的各种数据骗局,并告诉你如何才能识别数据的把戏,运用真正科学的方法分析数据。
是数据欺骗了你?还是自己欺骗自己?
加里在书中列举了辛普森悖论、幸存者偏差、自选择性偏差、混杂因素、均值回归、正负相抵等等十几条被扭曲的结论。
但归结起来主要是来自两个方面,一方面是数据本身就存在错误,另一面是不同的人对数据的解读会造成不同的结果。
美国北卡州立大学地理系曾做过一次统计,看毕业生的收入情况,结果发现,地理系毕业生的平均起步薪水,不光比其它专业高,还比其它学校的地理系都高。于是得出一结论:要想起薪高,就得上北卡的地理系。
奇怪吧,怎么学地理的能挣着那么多钱呢?说来也简单,那一年北卡州立大学地理系毕业了一个学生,叫迈克尔·乔丹,就是当年NBA那位篮球之神,因为他一个人,拉高了整个地理系的平均薪水。
当我们不了解统计数据真实情况的时候,就往往容易被不真实的数据误导,从而相信错误的结论。
但也会存在数据是真实的,不同的人解读会造成不同的结果。
比如说彩票,其实每期出来的数字都是随机的,无规律可循,但是有些人总能从无序中找出有序,像是不要在连续数字上下注,迟迟不出现的数字本期出现的概率更大,更有甚着会认为男性中奖的概率更大。如果确实有这样的规律,那早已有人通过买彩票过上不愁吃穿的生活了。
识破数据谎言的方法
想要拆穿数据的胡扯,最好的办法是学习一些统计学的知识,当然,这对许多普通人来说有点困难,加里在这本书就提出了2个的方法。
(1)常识判断
在看到一则信息时,你可以问自己以下3个问题
谁告诉我的?
他是怎么知道的?
他想向我兜售什么?
这3个问题主要是判断你看到的数据是否是一手资料,对数据的解读是否可靠。如果数据是二手、三手的,那么数据本身就有可能存在错误,得出的结论你就得多考量考量了。
前面我们也说了不同的人对数据的解读会产生不同的结果,所以我们也要知道是谁告诉我们的,是统计学专家,还是普通人。
(2)用新数据来检验旧结论
结论都是由旧的数据得出,如果在使用旧的数据,自然无法验证结论的准确性。所以加里强调用新的数据来检验旧的理论。
为什么建议人人都学一点统计学知识?
如果有很好的朋友告诉你,他有偏方能治好你某位亲戚的病,因为“他自己就是这么治好的”。你会拿来试一试吗?即使你知道这个偏方有可能是假的。
或者你苦口婆心告诉别人吸烟有害健康,他可能不屑一顾,还对你说“某某人天天抽烟,现在活到90多岁还身体倍儿棒”。这些例子数不胜数,人们总是会过度相信曾经的经验,觉得某某某都可以,为什么我不行。
曾经有项心理实验表明,人们对一类事物产生概念依靠的是“原型”机制,即建立一个某类事物的典型印象,然后在遇到新的事物时,按照和各个概念原型来判断它和哪个概念相关。
这套机制为大脑省下了很多精力,但也有不少问题,其中最严重的问题是小样本容量造成的。
统计上很多定律都是渐进的,样本容量无穷大时定律才成立。我们没有无穷多的样本,那么有很多样本是不是能得到一个合理的估计?
很多情况下这的确成立,但可惜的是人们最喜欢的就是特例思维——一个样本就能当原型用!我们的直觉受原型机制荼毒太深,以至于正确的统计定律时常被我们置之脑后。
但假设你有一点统计学的知识,你也可能会陷入数据骗局中,可是当这个原型机制启动的时候,你可以运用一些统计学思维来进行思考,不至于陷入恐慌中。
如果你是小白,不妨先从这本《简单统计学》看起,加里用丰富的案例来告诉读者统计学中的理论,方便读者的理解。