原文
均值的标准差公式表明,大的总体的标准差要比小的总体的标准差低得多。由此可以推断,在小的群体中应该会观察到更多的好事和更多的坏事。事实上我们确实观察到了:最安全的居住地是小城镇,但最不安全的地方也是小城镇;肥胖率和癌症发病率最高的那些郡县的人口较少。这些事实都可以通过标准差的差异来解释。
如果不考虑样本量,直接根据离群值(异常值)推断因果关系可能会导致相当糟糕的政策行为。出自这个原因,美国统计学家霍华德·魏纳(Howard Wainer)将均值标准差公式称为“世界上最危险的方程式”。例如,在20世纪90年代,盖茨基金会和其他一些非营利机构以“最好的学校都是小学校”为依据,倡导将大学校分拆为小学校。
思考
在调查研究中,我们必须注意这一事实:样本数量的多少,和抽样结果中极端情况的出现概率相关。
因为大的总体计算出的标准差,要比小的总体计算出的的标准差低得多。同样一件极端事件,在大数量样本中需要跨越更多的西格玛,所以概率更低。
由此可以推断,在小的群体中应该会观察到更多的好事和更多的坏事。
我们经常被这样的类似情况迷惑,比如长寿村。
我们不完全否认外在因素对寿命的影响,例如空气质量,植被水源,生活习惯等。但我们同样需要考虑到,“村庄”这个小数量级的样本,本来就容易出现更好或更坏的极端情况。
我们甚至可以推断,和长寿村对应,一定有一个村庄是“短命村”。
我们首先应该看到,这种现象是一个概率问题,才能更理性客观的去分析其他因素对长寿的影响。才能避免“长寿村的月亮都比我们的圆”,这样的重大误解。
我有这种问题:很容易被标题党使用的吸引眼球的数据吸引,忍不住点开。但往往带着猎奇心理看到的事情,不过是一件小样本中的小概率事件。
知道了“均值标准差”的概念,能让我更理性的看待极端数据和现象。
它们出现的概率和样本数量相关,所以即便是真实的数据,也会传递给我们错误的“信息”。
其实严格来说信息不存在对错,是我们的理解,把信息扭曲了。