统计学防骗手册——《统计数据会说谎》
一本简单易上手的统计学防上当受骗手册。作者的本意并不是指责负责数据的统计学家,而是出于对人性的了解,知道原本中立的数据在推销员、公共关系专家、记者和广告文案撰写者的手里,难免会被歪曲夸大或过分简化,最终的分析结果与数据反映的实际情况相差万里。这本书会指导你成为生活里的侦探,一招搓破那些虚张声势的谎言。
一、样本偏差
例子:
1936年《文学摘要》(Literary Digest)对当年总统大选预测失败的事例。曾经精确预测出1932年大选结果的一千万电话用户和《文学摘要》的订阅者们令编辑相信兰登(Landon)将获得370票,罗斯福(Roosevelt)只有161票。如此庞大的调查群体怎么会有偏差呢?然而偏差确实存在。一些大学论文和其他事后调查发现:在1936年有钱用电话和订杂志的人并不具有代表性。从经济角度来看,他们是一类特殊人群。该样本之所以带有偏差是因为事实最后证明,该样本对象都是共和党选民。
应用:
调查的样本是否足够大,是否随机分布,是否存在各种潜在的偏差,调查对象是否如实回答了调查问题。如此严格要求的抽样调查是很难做到的。
二、精挑细选的平均数
例子:
某房产销售在卖房时对你说,该小区住户的平均年收入是500万;当你买房入住后,又看到他在游说街道办给该小区低收入补贴,宣称小区户主的平均年收入只有5万。
这两个数据可能都是有真实数据支撑的。平均年收入500万可能只是因为有一个富豪在该小区投资了一套房,而其他都是穷人也说不定。
应用:
关键问题是区分人们说到“平均”的时候到底指什么。一般说来有三种:加和平均(或算术平均)、中位数、最多数。这三者经常代表样本的不同维度,在标准正态分布的时候,三者趋同,但是小样本、非正态分布时,是不能互相替代的。
当别人说到“平均”时,最好问清楚是哪种平均,并且,样本多大,里面都包含什么。
三、关键数据不全
例子:
某广告声称:使用某牙膏后用户的蛀牙减少了23%!
真的有那么明显的差别吗?再看该广告的小字部分,调查组只有12个人。并且,你不知道厂家做了多少组实验,才获得了“蛀牙减少23%”这个显著的成果。
应用:
这种诡计常见的手段是,给出平均值但不给方差;画出趋势线但没有标明数据值(scale);给出百分比却没说样本大小。都是通过隐瞒部分数据以操作数据达到操纵结论的目的。
四、误差——无事瞎忙
例子:
你家两个小孩同去参加智力测试,结果儿子智商98,女儿101。你被告知智力测验的正常水平为100。这时你是否该担心,儿子是弱智?
应用:
凡是这类测验,因人而异,不应该只有一条区分正常与不正常的线,而是应该设“正常范围”与“异常范围”。比如体检抽血时,都是给出正常区间,只有在正常区间以外才需要关注。
五、图表截取
这部分不上图很难说明了。基本的原理就是根据数据画出折线图后,截取掉一部分y轴,这样可以增加折线的斜率,放大曲线的变化趋势,小幅攀升可以变成陡然增长,造成惊人的效果。
这个对于科研人员算是一项必修课,本着严谨的态度,尽量不要截坐标轴,如果是两幅图进行前后效果比较,要采用相同的坐标轴比例。
六、一维图形表示数量
数据是一维的,但是纸上的图形是二维甚至三维的。当你用图形来表示数据的比例时,很可能会放大数据差异。比如数据增长了一倍,你用三角形表示数据大小,把三角形的边长增长了一倍来代表数据增长,这样三角形的面积就增长了四倍,若是有空间感,则体积增长了八倍,造成的视觉冲击与实际情况不符,会过分夸大事实。
七、看似相关
例子:
1898年“美西战争”期间,美国海军的死亡率是9‰,而同期纽约市市民的死亡率为16‰。后来,海军征兵部门的人就拿这个数据来说明待在部队更安全。假设这些数据都是精确的,因为它们可能很准确。但稍等一下,看看你能否发现其中的伎俩,或者说征兵人员根据它们得出的结论是否毫无意义。
例子:
我们经常可以在杂志和广告上见到陈述中滥用的前后对照图表的统计形式。有两张照片照的是同一间客厅,这是为了证明刷上一层油漆后的显著不同。但是在两次照相期间,广告商会加入新的家具,更何况“之前”的照片只是一张光线很差的黑白小照,而“之后”的照片则是一张色泽鲜明的彩色大照。还有个例子:有两张照片能向你展示一个姑娘使用护发素前后的明显不同。天啊!她使用了护发素后,看起来是多么漂亮啊!但你若仔细检验,会发现她之所以变美多半是由于她的嫣然一笑以及打在她头发上的背光。因此,这应归功于摄影师而非护发素。
应用:
这一部分需要较为严谨的逻辑辨别:结论到底是由对方给出的数据推理得到,还是对方把一堆相关事物堆砌而成。
八、因果颠倒/归因谬误
归因谬误在人的逻辑系统里很常见。比较极端的一个例子是,因为每天鸡叫之后才天亮,因此相信“鸡叫”是导致“天亮”的原因。
这种归因谬误很常见:人类天性就是喜欢归因,守因果律的制约,若遇到因果律难以解释的事情就会难受。但是人类社会是复杂系统,很多事情是相互影响的(如蝴蝶效应),因果律难以给出确定的解释。在还为充分研究、实验就凭感觉得出的归因,一般都是片面乃至错误的。
本书里用的一个例子是,在一个原始人部族,普遍相信“虱子使人健康”。原来是因为一般健康的人身上都有虱子,生病的人身上却没有虱子。其实是因为这个原始部族的人身上都有虱子,但人生病的时候体温升高,不适合虱子生存,虱子暂时离开了。当人快要恢复健康的时候,体温下降,虱子又重新寄生在这个人身上,并不是“虱子带来了健康”。
书中建议,“为了避免陷入这种因果谬误,从而相信许多似是而非的东西,你需要严格检验各种与相关性有关的说明。”
相关性往往是通过一些令人信服的精确数据来证明两件事情之间的因果关系。但事实上,这种相关性却有多种类型。相关并非因果。你可以说两者相关,但是在作出因果推定时,一定要慎重。
如何识别统计骗局
作者在文末建议读者,在遇到统计结论时问以下几个问题:
- 他怎么知道?
- 漏掉了什么?
- 有人偷换概念吗?
- 这是否合乎情理?
不要轻易被数据吓倒,而是要慎重的接受别人拿数据堆砌出来的结论。