今天来聊聊统计学中非常非常重要的理论——贝叶斯理论(Bayes’ Theorem)。
贝叶斯理论,用很简单的一句话来解释,就是用来“翻转条件概率”的。
假设,在男性中,色盲的概率为5%,而在女性中,色盲的概率为0.5%。而人群中的男女比例为1:1。那么请问,如果一位患者是色盲,那么他是男性的概率有多少?
在已知的信息中,我们知道在男性中色盲的概率5%,这是条件概率。我们需要计算的是在色盲中为男性的概率,这也是条件概率,但是条件翻转了,条件从“男性”变为了“色盲”。
那翻转后的条件概率该如何计算呢?我们先看看如果有5000名男性,5000名女性,结果会是怎样。
在5000名男性中,5%为色盲,色盲人数为250。
在5000名女性中,0.5%为色盲,色盲人数为25。
总色盲人数为275。在人群中,色盲的概率为275/10000=2.75%。
那么,色盲中男性的比例为250/275=90.9%。
换一种计算方法,我们也可以得到相同的结果。人群中男性的概率为50%,而男性中色盲的概率为5%,那么在人群中男性色盲占比为50%*5%=2.5%。而人群中不分男女色盲的概率为2.75%,那么在色盲中,男性的概率为2.5%/2.75%=90.9%。
是不是并不复杂呢?让我们将过程简化一下,来看看如何计算“翻转概率”。
第一步,我们需要计算的是条件概率中,“条件”发生的概率。在上述例子中,条件为“色盲”。而在不知道人群具体数量的情况下,计算人群中色盲的概率,则需要用到我们上一篇讲到的全概率公式。具体计算方法为,人群中男性色盲的占比50%×5%=2.5%,加上人群中女性色盲的占比50%×0.5%=0.25%,将他们加起来即是人群中色盲的比例2.75%。
第二步,我们需要计算,所发生事件在整体人群中的占比。在上述例子中,就是男性色盲在整体人群中的占比,等于男性中色盲的比例,乘以男性的比例。
第三步,用第二步得到的结果,除以第一步得到的结果,就是我们的“翻转概率”了。而整个计算翻转概率的方法,就是著名的贝叶斯理论。
贝叶斯理论之所以有名,是因为他可以用一些我们已知的条件概率,去计算一些未知的条件概率,尤其是在扑克牌游戏,比如德州扑克中,贝叶斯理论可以很方便地根据已经开牌的情况,计算各种牌型、以及他们的获胜概率,以后有机会再做更详细的介绍。
在历史的发展过程中,贝叶斯理论的重要性越来越被大家所认知,甚至发展出了一个新的流派——贝叶斯流派。
拿上述的例子来说,假设男性中色盲的概率5%和女性中色盲的概率0.5%是恒定的,但是社会中男女比例是在变化的。如果男女比例从1:1变为了1.1:1,那么最后的条件概率也会发生变化,但是我们依然可以很轻松地计算出色盲中男性的比例。有兴趣的朋友不妨自行计算一下。
所以在某些信息有变化时,利用贝叶斯理论,可以很好地更新我们的系统,得到最新最准确的信息。