导语
从今天开始,我们讲一讲与统计学有关的错误,让我们从一个辩题开始。
《奇葩说第七季》有个题目,叫做"20岁有个一夜成名的机会,该不该要”。正方,当然会讲一夜成名带来的好处,比如自我实现的机会,比如影响他人、影响社会的机会。反方,当然会讲一夜成名的坏处。比如,一夜成名有极大的风险,年轻人难以驾驭,产生的伤害是很严重的。比如,如何面对金钱?如何面对诱惑?如何面对有极大可能性的过气?不但很多人产生了心理问题,出演《小鬼当家》的美国童星最后落得酗酒甚至是吸毒的下场。
任何事情都是有两面性的,这是很正常的。可见,双方交锋的第一个重点就是年轻人是否可以驾驭一夜成名,实现它的好处,避免它的坏处。
正方有一位辩手恰恰是20岁一夜成名的人,他现身说法。“对方说我会过气,我没有。对方说我会迎合别人,我没有。”
反方说:“您这是幸存者偏差!”
幸存者偏差(survivorship bias):无视“牺牲者”的数据谬误
什么是幸存者偏差?
简单来说,我们从那些我们看得到的幸存者身上收集的数据是不具有完整的代表性的,因为还有很多我们没看到的牺牲者,那部分数据是缺失的。
我快速讲一下幸存者偏差的来源。它的英文叫survivorship bias或者survival bias。最经典的例子是第二次世界大战时,美军研究了从战场上回来的飞机,他们认为中弹最多的部位应该被加固,代表这些地方容易被打到,比如说,机翼上弹痕特别多,应该给机翼加防护。当时有个哥大的教授,是个数学家,沃德·亚伯拉罕,他的建议恰恰与美军相反。他认为越是中弹少的部位越需要加固,也就是发动机。为啥呢?因为凡是发动机中弹了的飞机都没有能回来。如果我们只研究那些成功返航的幸存者,结论就是有偏差的。后来事实证明,这个数学家给的建议是更加正确的。