能把P(城市|省份)和P(省份|城市)联系起来的公式叫贝叶斯公式。我们来看贝叶斯公式长什么样子。
用A表示省份,B表示城市,套入公式,即能把P(城市|C)和P(C|城市)联系起来。看到能够联系起来,上级工作人员很高兴,但是这公式有什么意义吗,是不是随便编造的一个公式,为何叫贝叶斯公式而不是叫陈佩斯公式?
贝叶斯公式以托马斯·贝叶斯(Thomas Bayes,1701-1761)命名的,贝叶斯是和牛顿同时代的牧师,同时也是一位业余数学家,和牛顿不同的是,贝叶斯的理论当时并未被重视,原因在于贝叶斯在统计当中引入了主观因素,即所谓的先验概率,这对于数学来说是大忌,数学应该是客观的,怎么能加入主观因素。因此,直到1950年左右,人们发现加入先验概率效果更好,贝叶斯的理论才被广泛接受。
一个理论能被广泛接受,一定是因为能够解决很多问题,那贝叶斯理论又解决了什么问题,为什么一个数学理论能够加入主观因素?
如果问抛硬币正面朝上的概率,很多人会肯定回答说概率是1/2,但这是想当然了,对于理想的硬币,正反面概率是均匀的,但是如果硬币动了手脚,那就不一定了,这个时候,要怎么去确定概率是多少?有人想到通过做抛硬币的试验来确定,例如抛5次硬币,统计正面和反面出现的次数,如果抛5次都是正面向上,我们能说正面向上的概率是100%吗?有人说,5次太少,那抛5000次以上总能计算概率大小吧,答案是可以,只是这种估计概率的方式成本太高了。事实上,现实生活中,有很多类似的例子是不能通过做试验来确定概率的,例如小明预测明天下雨的概率是30%,他无法重复过上明天100次,统计下雨的次数来计算下雨的概率。而贝叶斯理论,可以解决这种在有限信息条件下对概率的一个预估,贝叶斯理论的思路是,在主观判断的基础上,先估计一个值(先验概率),然后根据观察的新信息不断修正(可能性函数)。
我们继续来看贝叶斯公式,我们再用省份和城市来理解这个公式有点不太好理解,因为那个例子看起来我们所有的信息都知道了。这里再举另外一个例子来理解。
曾经有一个大神给我传授表白理论,他说如果女神从来没有单独出去逛街吃饭,这说明女神根本不喜欢你,表白的成功概率很低的,反之亦然。
我们以这个理论作为概率的例子,首先,分析给定的已知信息和未知信息:
1)要求解的问题:女神喜欢你,记为A事件
2)已知条件:经常和女神单独出门吃过饭,记为B事件
那么,P(A|B)就是女神经常和你单独出门吃饭这个事件(B)发生后,女神喜欢你的概率。把这个套入贝叶斯公式来理解一下。
贝叶斯可以分为三个部分,先验概率、可能性函数和后验概率。
1)先验概率
我们把P(A)称为"先验概率"(Prior probability),先验概率是根据以往经验和分析得到的概率。这个例子里就是在不知道女神经常和你单独出门逛街的前提下,来主观判断出女神喜欢你的概率。因为是主观判断,我们可以给任何值,例如高富帅可以把这个概率设定得很高,为80%,也可以设定低一点,例如50%,这完全是根据个人经验做出的判断。这也是前面说的贝叶斯公式的主观因素部分。
2)可能性函数
P(B|A)/P(B)称为"似然函数"(Likelyhood),这是一个调整因子,即新信息B带来的调整,作用是使得先验概率更接近真实概率。至于新信息带来的调整作用大不大,还得看因子的值大不大。
如果"可能性函数"P(B|A)/P(B)>1,意味着"先验概率"被增强,事件A的发生的可能性变大,例如女神平时很少和别人出门逛街吃饭,那么这个调整因子特别有用,肯定是大于1的。
如果"可能性函数"=1,意味着B事件无助于判断事件A的可能性,例如女神偶尔也和他人出门逛街吃饭,那么和女神出门吃饭没有我们带来任何信息,对判断女神是否喜欢你没有重大意义;
如果"可能性函数"<1,意味着"先验概率"被削弱,事件A的可能性变小,例如知道女神实际上有喜欢的人了,那该信息直接使得女神喜欢你的概率下降很厉害。
至于为什么似然函数的公式长这样的,这个留在以后再解释。
3)后验概率
P(A|B)称为"后验概率"(Posterior probability),即在B事件发生之后,我们对A事件概率的重新评估。这个例子里就是在女神跟你出门逛街吃饭这个事件发生后,对女神喜欢你的概率重新预测。
通过这个例子,我们理解了贝叶斯公式,也知道了贝叶斯公式能够通过似然函数不断调整主观概率得到后验概率,使得预测更加准确,这也是为什么带有主观因素还能在数学界呆着的原因。也正因为这样,贝叶斯可以出现在所有需要作出概率预测的地方,例如垃圾邮件过滤,中文分词,疾病检查等。特别是在机器学习领域,贝叶斯理论更是一个绕不过去的门槛。