今天认识了一个很有趣的统计学名词,叫做“伯克森悖论”(Berkson's paradox),也称为“伯克森偏见”(Berkson's bias)。
它指的是,当不同样本被纳入统计的概率不同时,样本的两个不显著相关的特征就能够表现出一定的相关性。
因为抽样方法的错误,导致样本不能代表总体,所以可能就会得到错误的结论(即观察到相关性)。这属于理性的思考。
但当伯克森悖论发生在生活中时,我们可能就无法做到理性思考了。
下面给你举个例子。
假设男人的长相和性格是两个不相关的特征,那么所有男人在这两个特征上的分布就如下图所示,一个点代表了一个男人。对所有点进行拟合,得到一条斜率为 0 的直线,代表了从总体上来看,男人长相与性格无关:
现在,假如有一个比较挑的女孩,我们就叫她 A 吧。A 只愿意接触长相和性格都达到一定水平的男人,要么够帅,要么性格够好,即要满足:
长相 + 性格 ≥ 某个阈值
也就是说,只有下图右上角区域的男人,会入 A 的法眼。这些男人,构成了 A 的异性交际圈。
对这些男人的长相和性格进行拟合,发现居然长相和性格呈现了负相关的关系(斜率为负)!所以 A 就会说,以我多年经验发现,长相帅的男人,大多性格都不太好。
你说她错吧,她也没错,她观察到的现象就是这样子,但你总觉得哪里不对,却也找不到证据来反驳她。
这样的例子还有很多,你是否也听说过下面的经验之谈:
- 女人越漂亮,就越不聪明;
- 男人越聪明,表达能力越差;
- 流行音乐/书籍都没什么深度;
- ......
现在,知道了“伯克森悖论”以后,你就知道如何来解释这种现象了 —— 我们每个人的生活经历不同,所接触到的人也不同,我们通过有限观察得到的结论,并不一定适用于其他人,因为我们观察到的样本分布,并不能代表总体样本的分布!
另外,如果你还了解“幸存者偏差”的话,可能会觉得和“伯克森悖论”很像。确实,这两个概念,描述的都是“选择偏差”,出错的根本原因在于抽样得到的样本不能代表总体。两者区别在于,“幸存者偏差”研究的对象是一个特征,描述的是在一个特征维度上抽样不均匀所导致偏差的现象;而“伯克森悖论”研究的对象是两个不相关特征,描述的是抽样不均匀所导致两个特征呈现一定的相关性的现象。
最后,我想说的是,如果你能从生活和工作中总结出什么经验,那么恭喜你,你是个善于发现和总结的人,我欢迎你分享你的收获,但也请你不要把你的经验强加在我身上,因为,我们不一样。