让我们陷入困境的并非我们不知道的东西,而是我们知道但并不正确的东西。——阿蒂默斯·沃德
假设你是一个非常爱喝牛奶的人,有一天,你在网上看到一篇医学文章,它告诫人们:爱喝牛奶的人容易得癌症。某些国家罹患癌症的人数不断攀升,正是因为它们是牛奶的生产和消费大户。而另外的一些国家,患癌人数却很少,因为那里牛奶稀缺。
如果你对数据毫无概念,这会你就该大惊失色,盘算着自己该如何戒掉喝牛奶的习惯了;反之,稍微懂点数据统计的话,你就会发现这篇文章的谬误所在:癌症主要是在中年以后发生,文章提到的瑞士等国家人民更加长寿,患癌概率增加很正常。因此,牛奶导致癌症的因果关系根本不成立,你会放心地继续喝牛奶。
从上述事例就可以看出,拥有基本的统计思维,可以帮助我们了解真实世界,从而做出科学的决策和行为。反之,没有这种思维,我们很容易相信日常生活中的各种数据谎言——统计数据经常被夸大或隐藏,从而形成错误认知,对我们的生活造成不良影响。
《统计数据会说谎》就向我们传授了基本的统计思维方式。这本书通过许多幽默的案例,深入浅出地介绍了统计学基本原理,教我们轻松识别数据谎言。自50年代首次出版以来,这本书不断再版,并被译成多国语言,在世界的影响力经久不衰,被誉为美国商业人士、研修人员的重要入门必修书之一。
作者达莱尔·哈夫,美国统计专家。毕业于爱荷华州立大学,获得学士学位和硕士学位,在此期间他加入了美国大学优等生的荣誉学会,同时还参加了社会心理学、统计学以及智力测验等研究项目。他的文章发表于《哈泼斯》、《星期六邮报》、《时尚先生》等多个知名媒体。1963年,他由于贡献突出被授予国家学院钟奖。
拥有基本的统计思维,就是要通过找到以下5个问题的答案,来反驳统计数据:
是谁这么说?
他怎么知道?
漏掉了什么?
有人偷换了概念吗?
这合乎情理吗?
让我们详细看看吧!
1 是谁这么说?
是谁这么说,是指要避免模糊、错误描述的干扰,明确提出统计的人是谁。
比如,有篇文章声称上大学会导致女性结婚概率降低,作者是康奈尔大学的“专家”。乍一看,你可能会认为提出统计的人是康奈尔大学——是权威机构,因此对这个统计产生错误的信任。事实上,只有数据是康奈尔大学提供的,结论完全由作者提出,和康奈尔大学毫无关系。
2 他怎么知道?
他怎么知道,是指要发现统计样本中的偏差。一般来说,要特别留意样本的规模是否足够庞大到说明问题。
比如,芝加哥《商业日报》做了一个关于囤积物品、哄抬物价的调查,在169家公司中,有67%的公司认为自己是物价上涨的受害者。事实上,该报社共向1200家大型公司发去了调查问卷,但只有14%的公司回复了,86%的公司压根儿没表明看法。因此,这些回复了问卷的公司就组成了一个带有偏差的样本,结论根本不可信。
3 漏掉了什么?
漏掉了什么,是指要留意统计结果中是否漏掉了什么重要信息。
首先,该统计的平均数、指数、测算方式是否可信。
平均数指代的是算术平均数、中位数,还是众数?简单来说,平均数是所有数据的平均值;中位数是居于中间的数据,有一半数据会比它高,另一半则比它低;众数是出现次数最多的数值。不同定义的平均数,有时区别很大,未加说明的平均数根本不可信。
比如,某人要买房子时,中介告诉他,这片街区用户的年平均收入是15万元,让他下决心付钱,而当他住进去后,某人却向政府请求降低税率,理由是这带用户年平均收入仅为3.5万元。实际上,第一个数据使用了较大的算术平均数,第二个则是较小的中位数。
指数是不是刻意选择的?比如,经济萧条过后,利润和生产指数的增长要比工资指数的增长快得多。实际上,这是因为当时利润已经降至较低水平,基数较小,所以利润在此基数上增长的百分比一定会比工资的大。
数据是否经过可信的测算方式(概率误差、标准误差)的检验?比如,杂志编辑调研发现,35%用户喜欢A文章,40%用户喜欢B文章,因此更多采用B文章类型。实际上测算发现,数据差异只是统计误差,并不能反映B文章更受欢迎。
*概率误差、标准误差:计算数值,通常用于表示样本代表整体数据的精确度。
其次,该统计是否提供了原始数据及必要对比。
统计是否提供了原始数据?只提供百分比的数据通常具有欺骗性。比如,美国某大学开始招收女性学生时,反对者声称:该大学33%的女生嫁给了该校的男老师!查看原始数据才发现——其实当年只有3名女生入学,有1个嫁给了老师。
统计是否提供了必要的数据对比?很多时候没有对比,统计失去意义。比如,卫生部数据表明,在大雾天气的一周内,大伦敦地区的死亡人数猛增至2800人。然而,缺乏与随后几周死亡率数据的对比,此统计不能表明大雾是夺命杀手。
最后,该统计是否漏掉了其他导致变化发生的因素。
比如,有人发布了一份数据,对比了美国17年4月和16年4月的零售销售额,目的是要证明17年经济好转了。但遗漏了:16年的复活节假期在3月,而17年的则是在4月。所以,17年销售额提升,和节假日有关,不能说明经济复苏。
4 有人偷换了概念吗?
有人偷换了概念吗,是指原始数据和最终结论有没有什么地方被偷换概念。
调查方式有问题吗?比如,报纸调查表明:英国的男性比女性更爱洗澡。可是,实际上这些调查数据是来自用户口述。涉及隐私时,人们说的和做的往往不是一回事。因此,这个调查结论是不可信的。
定义发生变化了吗?比如,某次普查发现,1935年的农村数量与1930年相比大幅增加,人们认为这是一场“回归农场”运动。实际上会出现这个结论,是由于人口普查局定义的农场概念变化了,两次统计农场数量的口径不同导致的。
因果关系有依据吗?比如,某杂志文章图表显示:工厂里的电动马力在不断攀升,每小时的平均工资也跟着上涨。但是观察发现,每周的平均工资却在下跌。所以,没有证据表明电力和工资之间有什么因果关系。
是否说明了“第一”涉及的领域?不说明这点,人人都可以说自己是业界第一。比如,百度公司和谷歌公司都可以说自己是搜索引擎市场的领头羊。实际上,百度指的是在中国的搜索引擎市场,而谷歌指的是全球市场。
是否在拿词义做文章?比如,某杂志报导,会计们希望将“剩余”这个词从公司的资产负债表中删除,使用类似“留存收益”或“固定资产增值”等词语替代。实际上,这就是文字游戏,指代的内容没变化,是偷换概念的做法。
5 这合乎情理吗?
是否合乎情理,是指统计是否以未经证实的假设为基础。未经证实的假设包含很多:公式、事实、看似精确的数据等。
比如,悉鲁道夫·弗莱施提出了一个可读性公式,通过一些简单项目来检测一篇文章的难易程度,类似词语和句子长度等。它吸引了一些报纸出版商。事实上,这个公式假设了词语和句子的长度决定了文章阅读的难易程度,这个假设未经证实。
说了这么多,你是否已经学会了如何反驳统计数据呢?下面是这篇书评的思维导图,你不妨把它保存下来,下次自己再看到电视上的某个统计报告,或者好友转发你一个科普文章时,不要轻易相信里面的数据,而是通过问问题的方式找到这些统计数据的漏洞,这样一来,你才算是真正拥有了统计思维,不会再上当受骗了。