《简单统计学》的作者是耶鲁大学博士加里•史密斯
统计学是对数据进行处理的科学,我们按照数据处理过程的先后顺序,把这本书介绍的统计学原则,分为收集、分析和呈现三个阶段,来一一说明数据会在哪些地方出问题,帮助我们保持警惕,避免上当受骗。
第一,数据收集中的常见问题:
1,自选择偏差
如果因为被研究对象的个人决策,让数据样本的随机性大打折扣,就会导致最终的统计结果产生偏差。这种偏差,我们称为自选择偏差。
当我们试图通过简单的观察收集数据,得出结论时,这个结论很容易失真,因为我们观察到的特点,反应的未必是我们正在研究的特质,而是这些人身上原先就拥有的特质。
2,幸存者偏差
幸存者偏差说的是,我们在收集过往数据时往往遗漏了筛选的过程,因而忽视了关键信息。
在收集数据的过程中,我们很容易直接从看到的数据中下结论,但是,幸存者偏差提醒我们,没有看到的数据可能比我们看到的数据更加重要。
3,安慰剂效应
安慰剂效应就是说,无论病人服用的药物是否包含有效成分,人们都倾向于认为它能够缓解症状,似乎得到了某种心理上的安慰。要想避免安慰剂效应的干扰,在实验数据收集中不能轻信个案,而应该采取控制变量法进行比较,设计一项对照试验。
第二,数据分析中的常见问题:
1,曲解大数定律
大数定律的意思是,当统计样本足够大时,事物出现的频率就会无限接近它理论上的概率。
如果你把大样本中的结论,错误地移植到小样本中,这就曲解了大数定律。
这种曲解具体会表现为两种截然相反的形式:
a. 赌徒谬误:既然这件事情已经发生了很多次,为了平衡概率,下一次很可能不会再发生。
b. 热手谬误:这件事情既然已经发生了这么多次,那下回很可能再次发生。
我们不能把一系列独立事件,看成是相互影响的,我们既不能认为厄运会提高好运的可能性,也不能认为厄运会永远持续下去。
2,混淆条件概率
分不清“A条件下B的概率”和“B条件下A的概率”,并且认为这两个概率大致相等。
例如:男性当中,在NBA打球的人,只占很小一个比例,而在NBA打球的人当中,男性占的比例是百分之百。这两者当然不能等同。
3,误判相关因果
如果两个变量在数据上表现出相关关系,并不意味着它们必然存在因果关系。
4,忽略均值回归
均值回归是说,事物发生的概率都围绕着一个均值来回波动,在均值两头的极端现象,都有向平均值回归的趋势。出现均值回归现象的原因是,我们在做单次测量的时候,这种测量往往不完美。
第三,数据呈现中的常见问题:
1,在数据上动手脚
选择性报告:尽管研究者报告的数据是真实的,但他只报告了有利于论证他结论的那部分,对于不利于结论的数据,则有意无意地隐瞒不报。
谎报:研究者通过捏造虚假实验数据的方式,来证明自己的论点,达到不可告人的目的。
2,用图像扭曲真相
别有用心的人,会利用制作图像的过程,有意无意地扭曲真相。
例如:通过颠倒坐标系来逆转图像;通过忽略零点来放大波动。
四,如何防止别人用数据欺骗我们,我们又如何避免用数据欺骗自己。
1,我们要在数据统计的每个阶段认清它们;
2,我们要保持开放的心态,坚持实事求是;
3,我们要学会运用常识来分析问题,不要轻信缺乏数据的理论。
4,数据很容易取得也很容易造假,缺乏理论的数据同样不可信。最好的办法是使用新数据来检验理论,通常你都能发现致命的问题。