伯克森悖论

今天认识了一个很有趣的统计学名词，叫做“伯克森悖论”（Berkson's paradox），也称为“伯克森偏见”（Berkson's bias）。

它指的是，当不同样本被纳入统计的概率不同时，样本的两个不显著相关的特征就能够表现出一定的相关性。

因为抽样方法的错误，导致样本不能代表总体，所以可能就会得到错误的结论（即观察到相关性）。这属于理性的思考。

但当伯克森悖论发生在生活中时，我们可能就无法做到理性思考了。

下面给你举个例子。

假设男人的长相和性格是两个不相关的特征，那么所有男人在这两个特征上的分布就如下图所示，一个点代表了一个男人。对所有点进行拟合，得到一条斜率为 0 的直线，代表了从总体上来看，男人长相与性格无关：

现在，假如有一个比较挑的女孩，我们就叫她 A 吧。A 只愿意接触长相和性格都达到一定水平的男人，要么够帅，要么性格够好，即要满足：

长相 + 性格 ≥ 某个阈值

也就是说，只有下图右上角区域的男人，会入 A 的法眼。这些男人，构成了 A 的异性交际圈。

对这些男人的长相和性格进行拟合，发现居然长相和性格呈现了负相关的关系（斜率为负）！所以 A 就会说，以我多年经验发现，长相帅的男人，大多性格都不太好。

你说她错吧，她也没错，她观察到的现象就是这样子，但你总觉得哪里不对，却也找不到证据来反驳她。

这样的例子还有很多，你是否也听说过下面的经验之谈：

女人越漂亮，就越不聪明；
男人越聪明，表达能力越差；
流行音乐/书籍都没什么深度；
......

现在，知道了“伯克森悖论”以后，你就知道如何来解释这种现象了 —— 我们每个人的生活经历不同，所接触到的人也不同，我们通过有限观察得到的结论，并不一定适用于其他人，因为我们观察到的样本分布，并不能代表总体样本的分布！

另外，如果你还了解“幸存者偏差”的话，可能会觉得和“伯克森悖论”很像。确实，这两个概念，描述的都是“选择偏差”，出错的根本原因在于抽样得到的样本不能代表总体。两者区别在于，“幸存者偏差”研究的对象是一个特征，描述的是在一个特征维度上抽样不均匀所导致偏差的现象；而“伯克森悖论”研究的对象是两个不相关特征，描述的是抽样不均匀所导致两个特征呈现一定的相关性的现象。

最后，我想说的是，如果你能从生活和工作中总结出什么经验，那么恭喜你，你是个善于发现和总结的人，我欢迎你分享你的收获，但也请你不要把你的经验强加在我身上，因为，我们不一样。

伯克森悖论

推荐阅读更多精彩内容