世界是我们的,也是你们的,但归根结底,世界是贝叶斯的。
—— 胡所巴道·丹史乎由谢道里斯基
希望这篇文章能够带大家一起了解神奇的贝叶斯概念,启发更多神奇的思考。
继续上文...
第七层、公式展开:贝叶斯为什么难用?
如下图所示,先是只有B条件,然后又增加了C条件。(图上比例是瞎画的,不能当真)
我们不断增加新条件,条件增多就会导致满足条件的可能性逐渐缩小,而我们寻找的后验概率就是在这个更小范围内,目标事件发生的概率。
如图所示,我们先研究秃子中有多少是程序员,然后又研究穿西装的秃子中有多少是程序员,总之,我们就是关注更小范围内有多少是程序员。
下图是增加了条件D戴墨镜的情况,你能找出新的后验概率的分子和分母吗?
显示中我们得到的条件往往不止BCD三种,可能会更多,多很多。而我们知道,每次计算都不容易,很费脑筋。有没有更有效的办法快速向下推导更多条件呢?
我们从贝叶斯公式知道,条件B下的后验概率等于先验概率
乘以一个分数即
。
贝叶斯公式中各部分的名称如下:
-
程序员的占比称之为先验概率,即无条件下未知事件的发生率,或者说在整体条件下A的发生率,
;
-
秃头占比称之为边缘概率,即已知条件B发生的概率,或者说在整体条件下B的发生率,
;
-
程序员中的秃头占比称之为似然率,即已知条件在未知事件中存在的概率,
;
-
秃头中的程序员占比称之为后验概率,即我们期望了解的已知条件下发生未知事件的概率,
;
结合上面的图理解,可以这样思考,先验概率和边缘概率可以看做数量,所以必须有相同的分母,即相同的条件范围,即本次计算的整体。而后验概率和似然率可以看做比例,他们没有单位,同时
,所以改造后公式:
依照上面公式,新的的先验就是上次的后验,新的后验等于先验
乘以一个比例数
。
这样下去似乎只要计算出a1、a2、a3...就可以一路乘下去获得了。拿那个穿西装戴墨镜的秃头举例来说(注意先验和边缘都是相同条件):
(1)
(2)
(3)
这样计算下去有点绕,其实我们只要把握一个原则,就是把事件写全,然后就可以当做除法进行约分。
这其实还是很难记忆,尤其是很难确定似然率的写法,其实只要把握下面几点:
- 似然率的分母条件一定和先验的分子事件相同;
- 似然率的分子事件一定和后验的分子事件相同;
- 边缘概率的分母条件一定和先验的分母条件相同;
- 边缘概率的分子事件一定和后验的分母条件相同;
简化记忆就是似然是分子相除,边缘是分母相除,都是后验除先验:
带入原来的公式就变成了:
注意!上面公式里分子的和分母的
中的两个B是不同的,展开写完整应该是
,
。
我们都展开写完整,再看一次转为除法约分:
套用这个公式,先把先验和后验写上,然后把先验后验都展开,然后拼出似然和边缘,最后再根据公式的含义找到似然和边缘应该对应的值,计算出后验。
比如这个红绿车肇事问题。
某城市早晨发生一场车祸,肇事车逃逸,该城市只有绿色和红色两种汽车,红色占比20%,现有一目击证人称肇事车为红色。已知普通人在当时早晨光线不好的情况下,仅有60%可能正确分辨汽车颜色,其中红色汽车都能被正确识别出来,那么肇事车实际为红色的概率是多少?
- 后验是证人认为是红色这个条件下真是红色的概率,即
- 先验是
等于20%,和后验只差一个认为信息,就差一步
- 展开后的公式:
- 似然率:因为红色车都可以被识别,所以
就是100%
- 边缘概率:60%正确识别且其中20%红色都正确识别为红色,就是还要正确识别40%的绿车,这就剩下另外40%绿车必须识别错误也认为是红车才行,总计60%都识别成了红车,边缘概率就是所有车中的60%都被识别成了红车。
带入公式求解:
结论是肇事车实际仅有三分之一可能是红车,也就是说更可能是绿车。
如果没有人指认,肇事车是绿车的概率是80%,现在降到了60%,总体来说,第一个指认是红色的条件下,绿车的可能性降低了。
那么如果有第二个人B也指认是红车呢?我们来算一下。
- 后验概率是
- 先验概率是
等于33%
展开公式:
- 似然:仍然是100%,因为红车全部会被A和B正确指认为红车。
- 边缘:A认为红色的范围内包含了20%的真红和40%的真绿,我们把它视为一个整体,其中1/3红车,2/3绿车。对于这个新整体,B能够正确识别其中1/3的红车,正确率达到33%,这时还要40%错误率,就是把总体的另外40%(绿车)识别成红车,累计1/3+40%=1/15,就是A红且B红占新整体的比例,大约是73%。
带入公式求解:
这个45%的结论,其实就是B正确识别的真红33%占他识别为红的总数73%的比例。
如果第三个人C也指认是红车,那么会怎样?
只关注边缘概率。如上所述,B把33%的真红车和40%的真绿车都当成了红车,C以这个为整体进行识别。C仍然把真红都正确识别了,此时正确率是33/73=45%,要达到40%错误率,就要再把40%的绿车识别为红车,累计把45%+40%=85%识别为红色。即边缘概率
带入公式求解:
这次增加更小了。
这个52%的结论,其实就是C正确识别的真红45%占他识别为红的总数85%的比例。
继续第四个人D,计算边缘概率。按照上面结论,C识别为红色的结果中包含52%是真红,都会被D识别出来,此外D还要再错误的识别40%绿车为红色,累计识别红色的有92%,结论就是四个人都认为是红色,那么真是红色的概率就是0.52/0.92=56%。
如果我们继续下去就会发现,为了满足40%的错误率,当某人识别的红车中有60%是真红色的时候,下一个人就只能把所有车都识别为红色了,是的,他必须把那40%的绿色车也说成是红色。因此无论多少人再继续指认是红车,后验结果都会停留在60%这个水平。
这是不合理的。一个可行的对题目的修正就是把笼统的仅有60%可能正确分辨汽车颜色,其中红色汽车都能被正确识别出来
改为红色汽车都可以正确识别,但绿色汽车只有60%可能被正确识别
,这样的话随着指认人数的增加,真是红车的后验概率就可以逼近100%,你可以自己动手实验一下。
再来举一个例子。
经典的三门两羊问题。有三个关闭的门,我在其中两个门后分别放了一只羊,另一个门后放了一辆汽车,你的任务是选到放汽车的门。你先选择了一个门,我并不马上打开这个门,而是打开了另外一个放羊的门,让你看到门后是羊,这时候我问你,要不要放弃原来选择的门,改为选另一个没开的门?
首先,如果不换,所选的门(A)是车的概率是1/3,无论主持人怎么开门关门都没影响,但是对接下来我开门的动作就产生了影响,因为我只能在剩下两个门(BC)中选一个门打开。
我可以打开B保留C,也可以打开C保留B,这两种情况是相同的,我们只考虑其中一种,最后概率乘以2即可。如果我们开B留C,那么换C拿到车的概率就是:
这个其实是在求先验,但从形式上没区别,一样可以使用,请注意
这种写法,在条件概率中是不合规则的,因为概率不能超过1,在这里我们必须把它理解成比例或者除法。整体是1,
占整体的2/3,所以1比2/3就等于3/2。
其中,似乎并不明显;
明显绝对100%满足,C是车的话B肯定是羊;
是3/2。所以:
我们用公式求即B是羊的情况中有多少比例C是车:
其中,是1/3,
是2/3;而
明显是100%必然发生:
注意这不是真正获得车的概率,它的分母是
,而我们要的是
即整体中的比例。
带回到上面公式,得出开B留C情况下C门是车的概率:
同理:
累加得到最终结论,换门得到车的概率是2/3:
以上故意使用了繁琐的贝叶斯来推理计算,并且引入了奇怪的大于1的概率写法...其实最简单的解答就是:你只有换或者不换两种选择,既然不换是1/3,那么换肯定是2/3。
这节有点乱,有待检查和改进
<未完待续>
下篇我们将关注更多有趣的相关算法和知识,敬请关注。