贝叶斯概率的十层理解(3)

世界是我们的,也是你们的,但归根结底,世界是贝叶斯的。
—— 胡所巴道·丹史乎由谢道里斯基

希望这篇文章能够带大家一起了解神奇的贝叶斯概念,启发更多神奇的思考。

继续上文...

第七层、公式展开:贝叶斯为什么难用?

如下图所示,先是只有B条件,然后又增加了C条件。(图上比例是瞎画的,不能当真)

我们不断增加新条件,条件增多就会导致满足条件的可能性逐渐缩小,而我们寻找的后验概率就是在这个更小范围内,目标事件发生的概率。

条件增多,范围变小,目标范围变小

如图所示,我们先研究秃子中有多少是程序员,然后又研究穿西装的秃子中有多少是程序员,总之,我们就是关注更小范围内有多少是程序员。

下图是增加了条件D戴墨镜的情况,你能找出新的后验概率的分子和分母吗?

增加D条件

显示中我们得到的条件往往不止BCD三种,可能会更多,多很多。而我们知道,每次计算都不容易,很费脑筋。有没有更有效的办法快速向下推导更多条件呢?

我们从贝叶斯公式知道,条件B下的后验概率P(A|B)等于先验概率P(A)乘以一个分数即P(B|A)/P(B)

P(A|B)=P(A)*\frac{P(B|A)}{P(B)}

贝叶斯公式中各部分的名称如下:

  • P(A)程序员的占比称之为先验概率,即无条件下未知事件的发生率,或者说在整体条件下A的发生率,P(未知)
  • P(B)秃头占比称之为边缘概率,即已知条件B发生的概率,或者说在整体条件下B的发生率,P(已知)
  • P(B|A)程序员中的秃头占比称之为似然率,即已知条件在未知事件中存在的概率,P(已知|未知)
  • P(A|B)秃头中的程序员占比称之为后验概率,即我们期望了解的已知条件下发生未知事件的概率,P(未知|已知)

结合上面的图理解,可以这样思考,先验概率和边缘概率可以看做数量,所以必须有相同的分母,即相同的条件范围,即本次计算的整体。而后验概率和似然率可以看做比例,他们没有单位,同时P(A|B)=P(A且B|B) ,所以改造后公式:

P(A且B|B)=P(A|X)*\frac{P(A且B|A)}{P(B|X)}

依照上面公式,新的的先验就是上次的后验,新的后验P_n等于先验P_{n-1}乘以一个比例数a_{n-1}

P_4=P_3*a_3=(P_2*a_2)*a_3=(P_1*a_1)*a_2*a_3

这样下去似乎只要计算出a1、a2、a3...就可以一路乘下去获得P_n了。拿那个穿西装戴墨镜的秃头举例来说(注意先验和边缘都是相同条件):

(1)P(程|秃)=P(程|班)*\frac{P(秃|程且班)}{P(秃|班)}

=P(程|班)*\frac{P(秃且程|程)}{P(秃|班)}

=P(秃且程|秃)

(2) P(程|装且秃)

= P(程|秃)*\frac{P(装|程且秃)}{P(装且秃|秃)}

= P(秃且程|秃)*\frac{P(装且秃且程|秃且程)}{P(装且秃|秃)}

=P(装且秃且程|装且秃)

(3) P(程|墨且装且秃)

=P(程|装且秃)*\frac{P(墨|装且秃且程)}{P(墨且装且秃|装且秃)}

=P(装且秃且程|装且秃)*\frac{P(墨且装且秃且程|装且秃且程)}{P(墨且装且秃|装且秃)}

= P(墨且装且秃且程|墨且装且秃)

这样计算下去有点绕,其实我们只要把握一个原则,就是把事件写全,然后就可以当做除法进行约分。

P(A|B)=P(A且B|B且X)=P(A且X|X)*\frac{P(A且B|A且X)}{P(B且X|X)}

\frac{A且B}{B且X}=\frac{A且X}{X}*\frac{A且B}{A且X}*\frac{X}{B且X}

这其实还是很难记忆,尤其是很难确定似然率的写法,其实只要把握下面几点:

  • 似然率的分母条件一定和先验的分子事件相同;
  • 似然率的分子事件一定和后验的分子事件相同;
  • 边缘概率的分母条件一定和先验的分母条件相同;
  • 边缘概率的分子事件一定和后验的分母条件相同;

简化记忆就是似然是分子相除,边缘是分母相除,都是后验除先验:

似然率=P(后验分子|先验分子)

边缘概率=P(后验分母|先验分母)

带入原来的公式就变成了:

P(A|B)=P(A|X)*\frac{P(B|A)}{P(B|X)}

注意!上面公式里分子的P(B|A)和分母的P(B|X)中的两个B是不同的,展开写完整应该是P(B|A)=P(A且B|A)P(B|X)=P(B且X|X)

我们都展开写完整,再看一次转为除法约分:

P(A|B)=P(A且B|B且X)=P(A且X|X)*\frac{P(A且B|A且X)}{P(B且X|X)}

\frac{A且B}{B且X}=\frac{A且X}{X}*\frac{A且B}{A且X}*\frac{X}{B且X}

套用这个公式,先把先验和后验写上,然后把先验后验都展开,然后拼出似然和边缘,最后再根据公式的含义找到似然和边缘应该对应的值,计算出后验。

比如这个红绿车肇事问题。

某城市早晨发生一场车祸,肇事车逃逸,该城市只有绿色和红色两种汽车,红色占比20%,现有一目击证人称肇事车为红色。已知普通人在当时早晨光线不好的情况下,仅有60%可能正确分辨汽车颜色,其中红色汽车都能被正确识别出来,那么肇事车实际为红色的概率是多少?

  • 后验是证人认为是红色这个条件下真是红色的概率,即P(真是红车|认为红色)
  • 先验是P(红车|所有车)等于20%,和后验只差一个认为信息,就差一步
  • 展开后的公式:

P(真红且认为是红|认为红)=P(真是红车|所有车)*\frac{P(真红且认为是红|真是红车)}{P(认为红色|所有车)}

  • 似然率:因为红色车都可以被识别,所以P(真红且认为是红|真是红车)就是100%
  • 边缘概率:60%正确识别且其中20%红色都正确识别为红色,就是还要正确识别40%的绿车,这就剩下另外40%绿车必须识别错误也认为是红车才行,总计60%都识别成了红车,边缘概率就是所有车中的60%都被识别成了红车。

带入公式求解:

P(真红且认为是红|认为红)=P(真是红车|所有车)*\frac{P(真红且认为是红|真是红车)}{P(认为红色|所有车)}

=后验*\frac{似然}{边缘}=0.2*\frac{1}{0.6}\approx33\%

结论是肇事车实际仅有三分之一可能是红车,也就是说更可能是绿车。

如果没有人指认,肇事车是绿车的概率是80%,现在降到了60%,总体来说,第一个指认是红色的条件下,绿车的可能性降低了。

那么如果有第二个人B也指认是红车呢?我们来算一下。

  • 后验概率是P(真是红车|A认为红且B认为红)
  • 先验概率是P(真是红|A认为红)等于33%

展开公式:

P(真红且A红且B红|A红且B红)=P(真红|A红)*\frac{P(真红且A红且B红|真红)}{P(A红且B红|A红)}

  • 似然:仍然是100%,因为红车全部会被A和B正确指认为红车。
  • 边缘:A认为红色的范围内包含了20%的真红和40%的真绿,我们把它视为一个整体,其中1/3红车,2/3绿车。对于这个新整体,B能够正确识别其中1/3的红车,正确率达到33%,这时还要40%错误率,就是把总体的另外40%(绿车)识别成红车,累计1/3+40%=1/15,就是A红且B红占新整体的比例,大约是73%。

带入公式求解:

后验*\frac{似然}{边缘}=0.33*\frac{1}{0.73}\approx45\%

这个45%的结论,其实就是B正确识别的真红33%占他识别为红的总数73%的比例。

如果第三个人C也指认是红车,那么会怎样?

只关注边缘概率。如上所述,B把33%的真红车和40%的真绿车都当成了红车,C以这个为整体进行识别。C仍然把真红都正确识别了,此时正确率是33/73=45%,要达到40%错误率,就要再把40%的绿车识别为红车,累计把45%+40%=85%识别为红色。即边缘概率P(A红B红C红|A红B红)=85%

带入公式求解:

后验*\frac{似然}{边缘}=0.45*\frac{1}{0.85}\approx52\%

这次增加更小了。
这个52%的结论,其实就是C正确识别的真红45%占他识别为红的总数85%的比例。

继续第四个人D,计算边缘概率。按照上面结论,C识别为红色的结果中包含52%是真红,都会被D识别出来,此外D还要再错误的识别40%绿车为红色,累计识别红色的有92%,结论就是四个人都认为是红色,那么真是红色的概率就是0.52/0.92=56%。

如果我们继续下去就会发现,为了满足40%的错误率,当某人识别的红车中有60%是真红色的时候,下一个人就只能把所有车都识别为红色了,是的,他必须把那40%的绿色车也说成是红色。因此无论多少人再继续指认是红车,后验结果都会停留在60%这个水平。

这是不合理的。一个可行的对题目的修正就是把笼统的仅有60%可能正确分辨汽车颜色,其中红色汽车都能被正确识别出来改为红色汽车都可以正确识别,但绿色汽车只有60%可能被正确识别,这样的话随着指认人数的增加,真是红车的后验概率就可以逼近100%,你可以自己动手实验一下。

再来举一个例子。

经典的三门两羊问题。有三个关闭的门,我在其中两个门后分别放了一只羊,另一个门后放了一辆汽车,你的任务是选到放汽车的门。你先选择了一个门,我并不马上打开这个门,而是打开了另外一个放羊的门,让你看到门后是羊,这时候我问你,要不要放弃原来选择的门,改为选另一个没开的门?

首先,如果不换,所选的门(A)是车的概率是1/3,无论主持人怎么开门关门都没影响,但是对接下来我开门的动作就产生了影响,因为我只能在剩下两个门(BC)中选一个门打开。

我可以打开B保留C,也可以打开C保留B,这两种情况是相同的,我们只考虑其中一种,最后概率乘以2即可。如果我们开B留C,那么换C拿到车的概率就是:

P(C是车B是羊|全部)=P(C是车B是羊|B是羊)*\frac{P(C是车B是羊|C是车B是羊)}{P(全部|B是羊)}

这个其实是在求先验,但从形式上没区别,一样可以使用,请注意P(全部|B是羊)这种写法,在条件概率中是不合规则的,因为概率不能超过1,在这里我们必须把它理解成比例或者除法。整体是1,P(B是羊)占整体的2/3,所以1比2/3就等于3/2。

其中,P(C是车B是羊|B是羊)似乎并不明显;P(C是车B是羊|C是车B是羊)明显绝对100%满足,C是车的话B肯定是羊;P(无条件|B是羊)是3/2。所以:

P(C是车B是羊|全部)=P(C是车|B是羊)*\frac{1}{3/2}=P(C是车|B是羊)*2/3

我们用公式求P(C是车|B是羊)即B是羊的情况中有多少比例C是车:

P(C是车|B是羊)=P(C是车|全部)*\frac{P(C是车且B是羊|C是车)}{P(B是羊|全部)}

其中,P(C是车|全部)是1/3,P(B是羊|全部)是2/3;而P(C是车且B是羊|C是车)明显是100%必然发生:

P(C是车|B是羊)=1/3*\frac{1}{2/3}=1/2

注意这不是真正获得车的概率,它的分母是B是羊,而我们要的是P(C是车B是羊)即整体中的比例。

带回到上面公式,得出开B留C情况下C门是车的概率:

P(C是车B是羊|全部)=P(C是车|B是羊)*2/3=1/2*2/3=1/3

同理:

P(B是车C是羊|全部)=1/3

累加得到最终结论,换门得到车的概率是2/3:

P(开门是羊且闭门是车|全部)=P(C是车B是羊|全部)+P(B是车C是羊|全部)=2/3

以上故意使用了繁琐的贝叶斯来推理计算,并且引入了奇怪的大于1的概率写法...其实最简单的解答就是:你只有换或者不换两种选择,既然不换是1/3,那么换肯定是2/3。


这节有点乱,有待检查和改进
<未完待续>
下篇我们将关注更多有趣的相关算法和知识,敬请关注。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,997评论 6 502
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,603评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,359评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,309评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,346评论 6 390
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,258评论 1 300
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,122评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,970评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,403评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,596评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,769评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,464评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,075评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,705评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,848评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,831评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,678评论 2 354

推荐阅读更多精彩内容