贝叶斯定理是关于随机事件A和B的条件概率(或边缘概率)的一则定理。其中P(A|B)是在B发生的情况下A发生的可能性。
贝叶斯是个大神,贝叶斯原理源于他生前为解决一个“逆概”问题写的一篇文章。什么是“逆概”问题?“逆概”是相对于“正向概率”来说的概念。正向概率的例子是如果袋子里面有10个球,5个黑球,5个白球,那么从袋子里面拿出来一个球,是黑球的概率是多少,可以算出来是1/2。这个就是正向概率,正向概率有一个前提就是我们对袋子里面的情况已经全部掌握了,就是我们可以准确的知道未来。然而现实生活是你经常不知道袋子里面有多少个球(不确定性),更不知道多少个黑球,多少个白球,现实问题是袋子里面可能有无限多个球,除了黑球、白球之外还会有你之前都没见过的球(这就是黑天鹅),不管拿出来多少黑球白球,我们都无法排除黑球白球之外还有别的黑天鹅球的可能性。“逆概”的问题就是问我们在这样的情况下,下一次拿出来黑球的概率是多少?比如前面拿出来了6个黑球,4个白球,那么下一次拿出黑球的比例是多少?逆概问题好像和目前的“大数据”、“人工智能”问题很像,我们都是要基于目前已知的知识来获取对未来的预测。贝叶斯作为人工智能核心算法之一,这背后的深刻原因在于,现实世界本身就是不确定的,人类的观察能力是有局限性的。
一、第一个例子学习
一所学校里面有 60% 的男生,40% 的女生。男生总是穿长裤,女生则一半穿长裤一半穿裙子。有了这些信息之后我们可以容易地计算“随机选取一个学生,他(她)穿长裤的概率和穿裙子的概率是多大”,这个就是前面说的“正向概率”的计算。然而,假设你走在校园中,迎面走来一个穿长裤的学生(很不幸的是你高度近似,你只看得见他(她)穿的是否长裤,而无法确定他(她)的性别),你能够推断出他(她)是男生的概率是多大吗?有点抽象,换个问法:你在校园里面随机游走,遇到了 N 个穿长裤的人(仍然假设你无法直接观察到他们的性别),问这 N 个人里面有多少个女生多少个男生。
我们来算一算:假设学校里面人的总数是 U 个。60% 的男生都穿长裤,于是我们得到了 U * P(Boy) * P(Pants|Boy) 个穿长裤的(男生)(其中 P(Boy) 是男生的概率 = 60%,这里可以简单的理解为男生的比例;P(Pants|Boy) 是条件概率,即在 Boy 这个条件下穿长裤的概率是多大,这里是 100% ,因为所有男生都穿长裤)。40% 的女生里面又有一半(50%)是穿长裤的,于是我们又得到了 U * P(Girl) * P(Pants|Girl) 个穿长裤的(女生)。加起来一共是 U * P(Boy) * P(Pants|Boy) + U * P(Girl) * P(Pants|Girl) 个穿长裤的,其中有 U * P(Girl) * P(Pants|Girl) 个女生。两者一比就是你要求的答案。
把这个答案写成方式式:P(Girl|Pants) = P(Girl) * P(Pants|Girl) / [P(Boy) * P(Pants|Boy) + P(Girl) * P(Pants|Girl)]
其一般形式就是:P(B|A) = P(A|B) * P(B) / [P(A|B) * P(B) + P(A|~B) * P(~B) ]
收缩起来就是:P(B|A) = P(AB) / P(A)
贝叶斯定理的原始公式:假设H[1],H[2]…,H[n]互斥且构成一个完全事件,已知它们的概率P(H[i]),i=1,2,…,n,现观察到某事件A与H[,1],H[,2]…,H[,n]相伴随机出现,且已知条件概率P(A/H[,i]),求P(H[,i]/A)。
贝叶斯公式(发表于1763年)为: P(H[i]|A)=P(H[i])*P(A│H[i])/{P(H[1])*P(A│H[1]) +P(H[2])*P(A│H[2])+…+P(H[n])*P(A│H[n])}
二、第二个例子,一个深入的例子
第一个例子用来理解贝叶斯原理是怎么回事,第二个例子来告诉我们的常规认知与真实规律的差距。
贝叶斯定理在检测吸毒者时很有用。假设一个常规的检测结果的敏感度与可靠度均为99%,也就是说,当被检者吸毒时,每次检测呈阳性(+)的概率为99%。而被检者不吸毒时,每次检测呈阴性(-)的概率为99%。这是个二类问题。从检测结果的概率来看,检测结果是比较准确的。但是贝叶斯定理却可以揭示一个潜在的问题。假设某公司将对其全体雇员进行一次鸦片吸食情况的检测,已知0.5%的雇员吸毒。我们想知道,每位医学检测呈阳性的雇员吸毒的概率有多高?
解答一下:令“D”为雇员吸毒事件,“N”为雇员不吸毒事件,“+”为检测呈阳性事件。P(D)代表雇员吸毒的概率,不考虑其他情况,该值为0.005。因为公司的预先统计表明该公司的雇员中有0.5%的人吸食毒品,所以这个值就是D的先验概率。P(N)代表雇员不吸毒的概率,显然,该值为0.995,也就是1-P(D)。P(+|D)代表吸毒者阳性检出率,这是一个条件概率,由于阳性检测准确性是99%,因此该值为0.99。P(+|N)代表不吸毒者阳性检出率,也就是出错检测的概率,该值为0.01,因为对于不吸毒者,其检测为阴性的概率为99%,因此,其被误检测成阳性的概率为1-99%。
P(+)代表不考虑其他因素的影响的阳性检出率。该值为0.0149或者1.49%。我们可以通过全概率公式计算得到:此概率 = 吸毒者阳性检出率(0.5% x 99% = 0.495%)+ 不吸毒者阳性检出率(99.5% x 1% = 0.995%)。P(+)=0.0149是检测呈阳性的先验概率。用数学公式描述为:
P(+)=P(+,D)+P(+,N)=P(+|D)*P(D)+P(+|N)*P(N)
根据上述描述,我们可以计算某人检测呈阳性时确实吸毒的条件概率
P(D|+)=P(+|D)*P(D)/P(+)=P(+|D)*P(D)/(P(+|D)*P(D)+P(+|N)*P(N))
得出的贝叶斯原理公式:
尽管我们的检测结果可靠性很高,但是只能得出如下结论:如果某人检测呈阳性,那么此人是吸毒的概率只有大 约33%,也就是说此人不吸毒的可能性比较大。我们测试的条件(本例中指D,雇员吸毒)越难发生,发生误判的可能性越大。这个案例和我们的常识不太一样,因为我们一直以为是99%,而不是33%。从这个案例我们认识到,越小几率发生的事情,越要审慎的核对。
三、贝叶斯原理对于我们认知的提升
贝叶斯对于我们认知世界提供了一个全新的视角:贝叶斯主义主张一个信念P的得以证明的条件是当且仅当这个P的概率高到合理的程度,并且这种概率由获取新论据而发生的认知证明变化,可依据概率演算包括贝叶斯定理来计算和预测。
按照万维刚老师说法,世界是复杂不确定的,当你说“我相信”或者“我不相信”的时候,你确切明白你的意思么?你相信上帝么?相信中医么?相信全球变暖是人为造成的么?相信转基因食品安全么?相信大年初一雍和宫祈福能带来好运么?相信或者不相信的基础是什么?这样说有点生硬,是个二类问题。那么我们量化一点,我们相信一个事情的概率是多少?相信雍和宫好使的比例是15%,那就是基本上不信,相信的比例是80%,那就是很大可能要去祈福。就像天气预报现在说下雨的概率是50%一样。量化的概率信念可以让我们的决策更科学。真正的100%全信或者0%的完全不相信是很少的,因为这个世界是复杂的,而且我们对大多数事物的信念值都是在动态变化的,随着证据增多,可能动摇我们的信念。比如外星人,原来我们相信80%可能有,按照费曼的思路我们咋就这么独特呢?可是我们现在相信50%,因为确实没有证据。
一个智识分子应该拥有这种复杂的信念体系,不是非此即被的信念体系,不是好人坏人的电视世界,并且时刻调整自己对事物的看法,需要不断地变动我们自己的世界观。想做到这一点,就是要用到贝叶斯定理,贝叶斯定理是计算主观概率的,就是在已有数据基础上预测未来的概率。计算主管概率的意思不是主观的计算概率,所有贝叶斯原理都是一样的,如果掌握这个东西的全部信息,那我当然能计算一个客观概率(古典概率)---可是生活中绝大多数决策(应该是全部)面临的信息都是不全的,就是信息不完备,我们手中只有有限的数据,贝叶斯原理的核心思想,既然无法得到全面的信息,我们就在数据有限的情况下,尽可能做出一个好的预测。
再复习一下贝叶斯原理公式:P(A|B) = P(B|A) * P(A) /P(B)
最关键思想就是:当B发生以后,有了新数据,我们对A的信念就需要做一个调整,可以把A当做一般情况的理论预言,把B当做一次数据,有了新的数据,我们对于A的预测就更加准确一点。贝叶斯原理渴求越来越多的数据。
观点随事实改变,有胆有事,这是贝叶斯原理对于认知的基本提升。