今年高考全国2卷的作文题目出来了,然后我一看,这不是我当天早上一时兴起查的幸存者偏差吗!之后上人工智能课,老师又刚好讲到概率推理和贝叶斯原理。下课回宿舍之后想了想,觉得幸存者偏差也能用概率推理解释一下,试着写一下推理过程。
贝叶斯定理 Bayes' theorem
贝叶斯公式:使用条件概率的定义和全概率公式可以推导如下:
贝叶斯公式可以用逆概率来求出原概率。
举个栗子,假如我们想要得到某有咳嗽症状的人得了肺炎的概率,即一个人在有咳嗽症状的前提下得了肺炎的概率。但是这个概率本身不太好算,那么我们可以先求出某得了肺炎的人有咳嗽症状的概率和某人有咳嗽症状的概率,然后用贝叶斯公式计算。套在公式里的话,P(B)就是某人有咳嗽症状的概率,而P(Ai)就是某人得了肺炎的概率,P(B|Ai)则是某得了肺炎的人有咳嗽的症状的概率,最后P(Ai|B)是某有咳嗽症状的人得了肺炎的概率。把他们代入贝叶斯公式,就可以计算出我们想要的结果,这里贝叶斯公式的分母就是用P(B)。概率推理用到的就是贝叶斯定理。
概率推理
设有如下产生式规则:
IF E THEN H
则可使用如下贝叶斯公式推得H的后验概率(即H在E前提下发生的概率)为:
幸存者偏差 survivorship bias
幸存者偏差是一种认知偏差。表现通常是只关注自己看得到的事物的特征,但是忽略看不到的事物的特征,或者说是无法幸存下来的事物的特征。因此会看不到实际导致结果的原因,而得出各种错误结论。
论证过程如下:
一组人A做同样的事,有的实现了B ,有的没有。实现B的人群A1,具备C,没有实现B的人群A2,不具备C。
如果A=A1+A2,而A1/A的百分比足够高,我们一般会倾向于认为C和B有高度相关性,甚至可以简单的认为C是B的原因(严谨的证明还需要更多的步骤,不在这里讨论)。
但是由于某种原因 ,导致A2是缺失的 (A2=0),或者严重不完备(A1+A2远小于A),那么无法推导出C是B的原因。此时如果坚持认为C是B的原因,就属于幸存者偏差逻辑谬误,又叫沉默的证据或者死人不会说话。
一个很常见的栗子就是“读书无用论”,有很多成功者学历都不高。但是大家能知道的的都是成功了的人,而不读书也没有成功的人大家根本就不会知道他们是谁。
或者是说算命师傅算得有多么准,家里人吃了哪个药病就好了之类。
还有一个更好懂的栗子是记者在车上采访乘客有没有买到车票,可是没买到车票的人根本不可能上车好吗(╯°口°)╯┴—┴
用概率推理解释幸存者偏差
借用一下上面的论述过程中的假设,我理解的幸存者偏差也可以解释成:
由于A不完整,导致错误地推出C是B的一个条件。也就是说P(B|C)比较大。
根据上一部分的论证过程和贝叶斯公式,我们很容易可以看出P(B)就是概率推理用到的贝叶斯公式中的P(H),而P(C)则是公式中的P(E)。而A会对P(C)造成影响。比如如果A2缺失,那么由于样本不均衡,P(C|B) ,在公式里就是P(E|H)的值就会偏大,其他值不变的话,算出的条件概率P(B|C)也就会偏大,这样就得出了一个错误的结论。