如何攻克贝叶斯的逻辑思维

很多人在学习贝叶斯相关理论的时候,头很大,脑袋却很空,不论是教科书上还是网上各种博客(基本上都号称用最通俗的语言解释贝叶斯),但是基本上都是感觉在隔靴瘙痒,不能让人有恍然大悟的酸爽。

我和这个贝叶斯也算是纠缠了有些日子,从大学的概率课程通过老师的唾沫横飞的表演开始了解到这个东西,当时也就为了应付一下考试罢了,也就是记住了公式,不好意思,一不小心概率考了100分,现在想想,完全没有卵用,脑袋还是很空,顶多把这个公式背的比别人熟悉一点,就不吐槽啥教育模式了。现在做机器学习需要用到贝叶斯,发现如论如何都避不开贝爷了,看几篇论文就会偶遇贝爷的身影,实在备不住,只能设法把贝爷搞服,搞透。

不得要领的原因很简单,因为贝叶斯公式很难给我们一个直观的感受,我发现我们很多时候之所以很难理解一个概念,一个公式,那是因为我们没法直观的感受概念和公式描绘出来的东西,都说有人逻辑思维好,抽象能力强,但对于普通人来说,具像的感受才是我们擅长的。我今天就是来把这个贝叶斯具像化,让每一个人都能理解。

首先,讲贝叶斯必须把基础讲清楚,我也尽量做到具像化的描述而不故弄玄虚吧,让我们一起戳破高大上专业词汇和公式下的简单原理吧。

陈希儒老先生的教材《概率论与数理统计》一书中有一句话说的好:

说乙估计事件A的概率为0.2,这听起来不甚了然和不好理解,但如果乙说“我认为A事件发生的机会,正如在4黑球和1白球中,抽出白球的机会”,则人们就感到顿时领悟了他的意思。

鉴于此,我们就使用最简单的摸球来演绎这些概念

第一个是条件概率:

1.一百个球,10个白色的,90个黑色的,现在蒙上眼睛随意抽取一个,白球被抽到的概率是多少?任何人都知道是 10/(10+90)=1/10。

2.一百个球,10个白色的,90个黑色的,分别装在a和b两个盒子里,a中2个白球80个黑球,b中8个白球10个黑球,现在蒙上眼睛随意抽取一个,白球被抽到的概率是多少?

和上面一样概率还是1/10,这没错吧?这不过装到两个盒子中了,还是一顿乱摸。

3.一百个球,10个白色的,90个黑色的,分别装在a和b两个盒子里,a中2个白球80个黑球,b中8个白球10个黑球,现在蒙上眼睛随意“在a中”抽取一个,注意是在a中了,白球被抽到的概率是多少?很显然2/(2+80)=1/41,同样的如果在b中这个概率就是8/(8+10)= 4/9。

okay,到这里就可以讲条件概率了:

用P(A)表示一次抽取后抽到白球的概率,在这100个白球中这个概率是1/10,这个三岁小孩都能想到,但是一旦我们说这次抽取是从a盒子中抽取的,那么这个概率就变了,变成1/41了,换句话说:

当我们知道“某次抽取是从A盒子中抽取的”这个条件后,建立在这个条件下再来考虑抽到白球的概率,就会和没有任何条件下考虑的不一样了,我们使用P(B)来表示某次抽取是取自a盒子的概率,那么就得到条件概率的公式了:

P(A|B) = P(AB)/P(B)

具体到这个例子中就是这个样子的:

在B事件(盒子a中抽取)发生后,白色球的概率=在a盒子中抽取且抽到白球事件的概率/B事件的概率

=(2/100)/(82/100)=1/41

 这个计算还是稍微说明一下,P(AB)表示在a盒子中抽取且抽到白球事件的概率,能发生这个的只能是一次抽取的时候恰巧在a盒子中抽取了白色球,因为a盒子中只有2个白色球,而全体的球有100个,所以P(AB)=2/100。同样的道理,P(B)表示在一次抽取中恰巧抽到a盒子,由于a盒子一共有82个球,而全体的球有100个所以P(B)=(82/100)

条件概率虽然简单,但是这个过程还是值得细细的考虑的,不管怎样,我们了解了条件概率的概念。

然后是全概率公式

这里我先给出公式,然后解释,因为这个公式太精彩了,没有忍住

P(A) = P(B1)P(A|B1) + P(B2)P(A|B2) + ....

注意其中B1,B2....组成的是一个“完备事件群”,稍微介绍一下“完备事件群”的性质

P(BiBj)=0(即两两互斥)

P(B1) + P(B2) + .... =1(理解为每结果中都必然出现某个Bi事件)

为啥说这个公式精彩?全概率公式和多项式展开,积分等的思想如出一辙,都是拿许多简单的个体组成一个整体。

这个是怎么推导过来的呢?也顺便提一下:

P(A) = P(AΩ) Ω是一个必然事件(即“完备事件群”),没错吧?

P(AΩ) = P(A(B1 + B2+.....)) = P(AB1 + AB2 + .....)对吧?用一个具体的“完备事件群”来表示Ω,然后使用结合律

P(AB1+AB2+.....) = P(AB1) + P(AB2) +... 对吧?因为B1,B2等都是两两互斥的

所以有

P(A) = P(AB1) + P(AB2) +... 

然后根据条件概率公式的变形

P(A|B) = P(AB)/P(B)--P(AB)=P(B)P(A|B) 

得到全概率公式:

P(A) = P(B1)P(A|B1) + P(B2)P(A|B2) + ....

就说这么多吧,这两个概念是理解贝叶斯的基础,所以简单的介绍了一下,接下来进入正题!

贝叶斯,到底在讲啥

还是上述的两个盒子a和b,

我们使用一次条件概率公式

P(A|B1) = P(AB1)/P(B1)

注:这里B1表示从a盒子里面抽取这个事件

这个条件概率说明了一个原因到结果的问题:

原因:从a盒子里面抽取(B事件)

结果:抽到了白球(A事件)

简单来说就是B事件发生后导致A事件发生的概率

okay贝叶斯解决了一个反过来的问题:

P(B1|A) = ?

这是一个表明了结果到原因的问题,为何这么说,想象一下,我们在做这种摸球实验的时候,我们最后一直在统计球的颜色,因此球的颜色才是我们要的“结果”,不论这个球从哪里来。

P(B1|A) 说的就是当A发生(得到白球)的时候,每个导致的原因(从哪个盒子来)的概率是多少。

下面推导一下:

P(B1|A) = P(AB1)/P(A)   条件概率没错吧?

P(A) = P(B1)P(A|B1) + P(B2)P(A|B2) 全概率公式没错吧?

所以:

P(B1|A) = P(AB1) / (P(B1)P(A|B1) + P(B2)P(A|B2))

P(AB1) = P(B1)P(A|B1) 再次使用条件概率(变形)

所以:

P(B1|A) = P(B1)P(A|B1) / [P(B1)P(A|B1) + P(B2)P(A|B2)]

这就得到了大名鼎鼎的贝叶斯公式。

看上去好像就是使用条件概率和全概率公式的一点简单的推导,事实上贝叶斯本人也是这么认为,觉得没有啥卵用,因此自己也没有把它发表出来,直到在他死后,人们在整理他的生前资料的时候,发现了这个公式,进入了大众的视野,大众逐渐揭示了这个看似普通的公式的深刻含义。

回到盒子摸球问题,假设我们抽取出来了一个白球,那么从a盒子和从b盒子来的概率分别是多少?这就可以利用贝叶斯公式了

场景回顾:

a中2个白球80个黑球,b中8个白球10个黑球

从a盒子:

P(B1|A) = P(B1)P(A|B1) / [P(B1)P(A|B1) + P(B2)P(A|B2)]

             = (82/100)*(1/41)/[(82/100)*(1/41)+(18/100)*(4/9)]

             =  2/10

想来也很简单,已经知道摸出了白球,a盒子里面有2个,而b盒子里面有8个,那么来自a盒子的自然有 2/(2+8)= 2/10

之所以摸球的场景这么简单,这么自然,是因为摸球是一个典型的“古典概率”(也叫古典概型),即每个事件都是等可能的,我们在思考等可能的,离散的,有界的问题是很擅长的。

下面在来说两个在解释贝叶斯公式的时候经常被引用的,但是有一点隐晦的例子:

病菌检测和盗贼问题

1.病菌检测问题:

直接上陈希儒老先生举的例子:

设某种病菌在人口中的带菌率为0.03,当检查时,由于技术及操作的不完善以及种种特殊原因,使带菌者未必检测出阳性而不带菌者也可能呈现阳性反应,假定:

P(阳性|带菌) = 0.99       P(阴性|带菌) = 0.01

P(阳性|不带菌) =0.05     P(阴性|不带菌) = 0.95

如果一个人被检测出来成阳性,那他带菌的概率是多少?

0.99?未免也太惨了,让我们用贝叶斯公式去安慰一下他吧!

如果我直接用贝叶斯公式:

(0.03*0.99)/  [(0.03*0.99 + 0.97*0.05] = 0.380

这确实是结果,但是你一定会先感到惊奇,然后感到无法直观感受。那么让我们类比摸球的例子来看这个问题。


我们想一下上述的各个概率从哪里来的,肯定是检测机构对你说你检测出阳性后,再语重心长的和你出示了:

P(阳性|带菌) = 0.99       P(阴性|带菌) = 0.01

P(阳性|不带菌) =0.05     P(阴性|不带菌) = 0.95

这个表,他们怎么得到这个表的?

对!统计来的,在很多人来检测以后,他们统计出了这种结果,这个统计过程就是从盒子里面摸球的过程。

人群中带菌者组成一个盒子,不带菌者组成一个盒子,每次来检测,都相当于在这个盒子里抽出一个球。

再来类比一下,把阳性比做白球,把阴性比做黑球,一切就很清晰了!

0.03和0.97分别是每次来检测的人到底是从哪个盒子(带菌或者不带菌)来的概率,就好像是从哪个盒子理摸白球的概率,因为人群中带菌盒子和不带菌盒子的大小就是0.03比0.97。

再来简单回顾一下:

盒子是因,球颜色是果——带菌是因,阴阳性是果,如此清晰!

关于盗贼的问题,有兴趣自己还是类比一下摸球模型自行思考一下吧,有时间我回来再来写。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,539评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,594评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,871评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,963评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,984评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,763评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,468评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,357评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,850评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,002评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,144评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,823评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,483评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,026评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,150评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,415评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,092评论 2 355

推荐阅读更多精彩内容