1.6 全概率公式与Bayes公式

1.6 全概率公式与Bayes公式

例:一所学校里面有 60% 的男生,40% 的女生。男生总是穿长裤,女生则一半穿长裤一半穿裙子。有了这些信息之后我们可以容易地计算“随机选取一个学生,他(她)穿长裤的概率和穿裙子的概率是多大”,这个就是前面说的“正向概率”的计算。然而,假设你走在校园中,迎面走来一个穿长裤的学生(很不幸的是你高度近似,你只看得见他(她)穿的是否长裤,而无法确定他(她)的性别),你能够推断出他(她)是男生的概率是多大吗?


全概率公式

例:设女性患某种疾病的概率为0.3,男性患该病的概率为0.25,已知全国的男女比例为40:42​,求任何一人患该病的概率。

分析:记事件A为患该疾病,事件B_1为女性患该病,事件B_2为男性患该病,则
\begin{aligned} P(A)&=P(AB_1)+P(AB_2)=P(A|B_1)P(B_1)+P(A|B_2)P(B_2)\\ &=0.3\cdot\frac{40}{82}+0.25\cdot\frac{42}{82} \approx 0.274 \end{aligned}

全概率公式

定理:设\Omega为样本空间,若事件B_1,B_2,...,B_n满足

  1. B_1,B_2,...,B_n互不相容,即
    B _ { i } B _ { j } = \Phi \quad ( i \neq j , i , i , j = 1,2 , \cdots , n )
  2. B _ { 1 } \cup B _ { 2 } \cup \cdots \cup B _ { n } = \Omega

则称\{B_1,B_2,...,B_n\}为样本空间\Omega的一个分划,进而可得
\begin{aligned} P ( A ) & = P \left( A B _ { 1 } \cup A B _ { 2 } \cup \cdots \cup A B _ { n } \right) \\ & = P \left( A B _ { 1 } \right) + P \left( A B _ { 2 } \right) + \cdots + P \left( A B _ { n } \right) \\ & = P ( A | B _ { 1 } ) P \left( B _ { 1 } \right) + P ( A | B _ { 2 } ) P \left( B _ { 2 } \right) + \cdots + P ( A | B _ { n } ) P \left( B _ { n } \right) \end{aligned}
也即
P ( A ) = \sum _ { i = 1 } ^ { n } P ( A | B _ { i } ) P \left( B _ { i } \right)
该公式称为全概率公式(Law of Total Probability)


例:袋中有a只红球b只白球,先从袋中任取一球,记下颜色后放回,同时向袋中放入同颜色的球1​只,然后再从袋中取出一球。求第二次取到白球的概率。

解:记A=\{\text{第二次取到白球}\},B_1=\{\text{第一次取到白球}\},B_2=\{\text{第一次取到红球}\},显然B_1,B_2\Omega的一个分划,由全概率公式有
\begin{aligned} P ( A ) & = P ( A | B _ { 1 } ) P \left( B _ { 1 } \right) + P ( A | B _ { 2 } ) P \left( B _ { 2 } \right) \\ & = \frac { b + 1 } { a + b + 1 } \cdot \frac { b } { a + b } + \frac { b } { a + b + 1 } \cdot \frac { a } { a + b } \\ & = \frac { b } { a + b } \end{aligned}

思考:若第2次向袋中放入同颜色的球c​只,结果如何?
答:结果不变


例:有10个袋,其中甲袋二个,每袋中有红球、白球各2个;乙袋三个,每袋中有红球3个、白球2个;丙袋五个,每袋中有红球2个、白球3个.从十个袋中任取一袋,再从袋中任取一球,求取到白球的概率.

解:记B_1,B_2,B_3分别表示取到甲、乙、丙袋,A表示取到白球。由全概率公式
\begin{aligned} P ( A ) & = \sum _ { i = 1 } ^ { 3 } P ( A | B _ { i } ) P \left( B _ { i } \right) \\ & = \frac { 2 } { 10 } \cdot \frac { 2 } { 4 } + \frac { 3 } { 10 } \cdot \frac { 2 } { 5 } + \frac { 5 } { 10 } \cdot \frac { 3 } { 5 } = \frac { 13 } { 25 } \end{aligned}

问:如果将三个袋中的球混合在一起,然后任取一球,问取到白球的概率是否一样?
答:不同!全概率公式是概率的加权平均。


例:甲、乙两坦克的首发命中率均为0.8,经修正后的第二发命中率均为0.9, 敌目标被一发炮弹击中而被击毁的概率为0.2,被两发炮弹击中而击毁的概率为0.5,被三发炮弹击中必定被击毁. 在战斗中,甲、乙两坦克分别向敌同一目标发射了两发炮弹,求敌目标被击毁的概率.

解:设A表示目标被击毁,B_i表示目标被i发炮弹击中,i=1,2,3,4
\begin{array} { l } { P \left( B _ { 1 } \right) = 2 ( 0.8 \times 0.2 \times 0.05 \times 0.05 + 0.2 \times 0.2 \times 0.95 \times 0.05 ) = 0.0046 } \\ { P \left( B _ { 2 } \right) = 0.8 \times 0.8 \times 0.05 \times 0.05 + 0.2 \times 0.2 \times 0.95 \times 0.95 } \\ {\quad\quad\quad\quad +4 \times 0.8 \times 0.2 \times 0.95 \times 0.05 = 0.0681 } \\ { P \left( B _ { 3 } \right) = 2 ( 0.8 \times 0.8 \times 0.95 \times 0.05 + 0.8 \times 0.2 \times 0.95 \times 0.95 ) = 0.3496 } \\ { P \left( B _ { 4 } \right) = 0.8 \times 0.8 \times 0.95 \times 0.95 = 0.5776 } \end{array}
由全概率公式
\begin{aligned} P ( A ) & = \sum _ { i = 0 } ^ { 4 } P ( A | B _ { i } ) P \left( B _ { i } \right) \\ & = 0 . .2 \times 0.0046 + 0.5 \times 0.0681 + 1 \times 0.3496 + 1 \times 0.5776 \\ & = 0.96217 \end{aligned}


Bayes公式(Bayes's Theorem)

事件之间的联系

\left\{ B _ { 1 } , B _ { 2 } , \cdots , B _ { n } \right\}为样本空间的一个分划,且
P ( A ) > 0 , P \left( B _ { i } \right) > 0 \quad ( i = 1,2 , \cdots , n )
则由乘法公式
P \left( B _ { i } | A \right) P ( A ) = P ( A | B _ { i } ) P \left( B _ { i } \right) ( i = 1,2 , \cdots , n )
结合全概率公式P ( A ) = \sum _ { j = 1 } ^ { n } P ( A | B _ { j } ) P \left( B _ { j } \right),可以得到
P \left( B _ { i } | A \right) = \frac { P ( A | B _ { i } ) P \left( B _ { i } \right) } { \sum _ { j = 1 } ^ { n } P ( A | B _ { j } ) P \left( B _ { j } \right) } ( i = 1,2 , \cdots , n )
该公式称为Bayes公式

Bayes公式

Bayes公式体现了一种“因”和“果”的联系,很多时候不仅可以由因推果,也可以由果推因。

通常,事件A在事件B已发生的条件下发生的概率,与事件B在事件A已发生的条件下发生的概率是不一样的。然而,这两者是有确定的关系的,Bayes公式就是这种关系的陈述。
P(B_j|A)P(B_j)有时被称作标准似然度(standardised likelihood),这样一来Bayes定理可表述为:后验概率=标准似然度*先验概率

所谓的Bayes方法源于Tomas Bayes生前为解决一个“逆概”问题写的一篇文章,而这篇文章是在他死后才由他的一位朋友发表出来的。在Bayes写这篇文章之前,人们已经能够计算“正向概率”,如“假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大”。而一个自然而然的问题是反过来:“如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测”。这个问题,就是所谓的逆概问题。

实际上,Bayes当时的论文只是对这个问题的一个直接的求解尝试,并不清楚他当时是不是已经意识到这里面包含着的深刻的思想。然而后来,Bayes方法席卷了概率论,并将应用延伸到各个问题领域,所有需要作出概率预测的地方都可以见到Bayes方法的影子,特别地,Bayes是机器学习的核心方法之一。这背后的深刻原因在于,现实世界本身就是不确定的,人类的观察能力是有局限性的(否则有很大一部分科学就没有必要做了——设想我们能够直接观察到电子的运行,还需要对原子模型争吵不休吗?),我们日常所观察到的只是事物表面上的结果,沿用刚才那个袋子里面取球的比方,我们往往只能知道从里面取出来的球是什么颜色,而并不能直接看到袋子里面实际的情况。


例(吸毒检测):假设一个常规的检测结果的敏感度与可靠度均为99\%,即吸毒者每次检测呈阳性(+)的概率为99\%。而不吸毒者每次检测呈阴性(-)的概率为99\%。从检测结果的概率来看,检测结果是比较准确的,但是Bayes定理却可以揭示一个潜在的问题。假设某公司对全体雇员进行吸毒检测,已知0.5\%的雇员吸毒。请问每位检测结果呈阳性的雇员吸毒的概率有多高?

分析:令D为雇员吸毒事件,N为雇员不吸毒事件,+为检测呈阳性事件。可得

  • P(D)代表雇员吸毒的概率,不考虑其他情况,该值为0.005。因为公司的预先统计表明该公司的雇员中有0.5\%的人吸食毒品,所以这个值就是D的先验概率。
  • P(N)​代表雇员不吸毒的概率,显然,该值为0.995​,也就是1-P(D)​
  • P(+|D)​代表吸毒者阳性检出率,这是一个条件概率,由于阳性检测准确性是99\%​,因此该值为0.99​
  • P(+|N)代表不吸毒者阳性检出率,也就是出错检测的概率,该值为0.01,因为对于不吸毒者,其检测为阴性的概率为99\%,因此,其被误检测成阳性的概率为1 - 0.99 = 0.01
  • P(+)代表不考虑其他因素的影响的阳性检出率。该值为0.0149或者1.49\%。具体由全概率公式计算得到:此概率 = 吸毒者阳性检出率(0.5\% \times 99\% = 0.495\%)+ 不吸毒者阳性检出率(99.5\% \times 1\% = 0.995\%)。P(+)=0.0149​是检测呈阳性的先验概率。用数学公式描述为:
    P(+)=P(+ \cap D)+P(+\cap N)=P(+| D) P(D)+P(+| N) P(N)

根据上述描述,我们可以计算某人检测呈阳性时确实吸毒的条件概率P(D|+)
\begin{aligned} P(D |+) &=\frac{ P(+| D) P(D)}{P(+)} \\ &=\frac{P(+| D) P(D)}{P(+| D) P(D)+P(+| N) P(N)} \\ &=\frac{0.99 \times 0.005}{0.99 \times 0.005+0.01 \times 0.995} \\ &=0.3322 \end{aligned}
结论:尽管吸毒检测的准确率高达99%,但Bayes定理告诉我们:如果某人检测呈阳性,其吸毒的概率只有大约33%,不吸毒的可能性比较大。假阳性高,则检测的结果不可靠。

类似的情况:

  • 胰腺癌检测:即使100%的胰腺癌症患者都有某症状,而某人有同样的症状,绝对不代表该人有100%的概率得胰腺癌,还需要考虑先验概率,假设胰腺癌的发病率是十万分之一,而全球有同样症状的人有万分之一,则此人得胰腺癌的概率只有十分之一,90%的可能是是假阳性
  • 不良种子检测:假设100%的不良种子都表现A性状,而种子表现A性状,并不代表此种子100%是不良种子,还需要考虑先验概率,假设一共有6万颗不良种子,在种子中的比例是十万分之一(假设总共有60亿颗种子),假设所有种子中有1/3表现A性状(即20亿颗种子表现A性状),则此种子为不良种子的概率只有十万分之三

例:某工厂的一、二、三车间都生产同一产品,产量分别占总产量的15%,80%,5%三个车间的次品率分别为2%,1%,3%.现从汇总起来的产品中任取一个,经检查是次品,判断该次品是哪个车间生产的可能性较大?

分析:这是“因—果”分析问题,故应用Bayes公式

解:记A表示取得次品,B_i表示取到的产品是i车间生产的,i=1,2,3,由全概率公式
\begin{aligned} P ( A ) & = \sum _ { j = 1 } ^ { 3 } P ( A | B _ { j } ) P \left( B _ { j } \right) \\ & = 0.02 \times 0.15 + 0.01 \times 0.80 + 0.03 \times 0.05 = 0.0125 \end{aligned}
再由Bayes公式
\begin{array} { l } { P \left( B _ { 1 } | A \right) = \frac { P ( A | B _ { 1 } ) P \left( B _ { 1 } \right) } { P ( A ) } = \frac { 0.02 \times 0.15 } { 0.0125 } = 0.24 } \\ { P \left( B _ { 2 } | A \right) = \frac { 0.01 \times 0.80 } { 0.0125 } = 0.64 } \\ { P \left( B _ { 3 } | A \right) = \frac { 0.03 \times 0.05 } { 0.0125 } = 0.12 } \end{array}
可见该次品是第二车间生产的可能性较大。

以上的分析过程也被称为Bayes推断


Bayes推断

假定B _ { 1 } , B _ { 2 } , \cdots , B _ { n }为导致试验结果的“原因”,称P \left( B _ { i } \right) ( i = 1,2 , \cdots , n )先验概率

若试验产生事件A,则要探讨事件发生的“原因”,称P(B_i|A)后验概率,称P(A|B_i)原因概率

  • 先验概率反映了各种“原因”发生的可能性大小
  • 先验概率和原因概率可以在试验前分析确定
  • 后验概率反映了试验后对各种“原因”发生的可能性大小的推断.后验概率可通过Bayes公式进行计算
  • Bayes 方法广泛应用于网络、分类、诊断、估计、检验、判别、推理等方面

例:假定B _ { 1 } , B _ { 2 } , \cdots , B _ { n }为各种疾病,应用统计方法可确定患病的概率(先验概率)
P \left( B _ { i } \right) \quad ( i = 1,2 , \cdots , n )
应用医学知识确定每种疾病下指标A(例如体温、脉搏、血象等)出现的概率(原因概率),应用Bayes公式,可以计算出该指标意味着某种疾病的概率(后验概率)
P \left( B _ { i } | A \right) \quad ( i = 1,2 , \cdots , n )
这正是大数据在医疗系统中应用的原理。


课后思考题:习题一:20,21,22,23,24


参见数学之美番外篇:平凡而又神奇的贝叶斯方法

Bayes公式与人工智能

例(拼写纠正

经典著作《人工智能:现代方法》的作者之一 Peter Norvig 曾经写过一篇介绍如何写一个拼写检查/纠正器的文章(原文在这里,这篇文章很深入浅出,强烈建议读一读),里面用到的就是Bayes方法。

首先,我们的问题是我们看到用户输入了一个不在字典中的单词,我们需要去猜测:“这个家伙到底真正想输入的单词是什么呢?”用刚才我们形式化的语言来叙述就是,我们需要求:
P(\text{我们猜测他想输入的单词} | \text{他实际输入的单词})
这个概率,并找出那个使得这个概率最大的猜测单词。

显然,我们的猜测未必是唯一的。比如用户输入: thew ,那么他到底是想输入 the ,还是想输入 thaw ?到底哪个猜测可能性更大呢?幸运的是我们可以用Bayes公式来直接算出它们各自的概率,我们不妨将我们的多个猜测记为 h_1, h2,...h 代表 hypothesis),它们都属于一个有限且离散的猜测空间 H (单词总共就那么多而已),将用户实际输入的单词记为 DD 代表 Data ,即观测数据),于是P(\text{我们的猜测1 }| \text{他实际输入的单词})可以抽象地记为:P(h_1 | D),类似地,对于我们的猜测2,则是 P(h_2 | D)。不妨统一记为:
P(h | D)
运用一次Bayes公式,我们得到:
P(h | D) = \frac{P(h) \times P(D | h)}{ P(D)}
对于不同的具体猜测 h_1, h_2, h_3,…P(D) 都是一样的,所以在比较 P(h_1 | D)P(h_2 | D) 的时候我们可以忽略这个常数。即我们只需要知道:
P(h | D) ∝ P(h) \times P(D | h)
这个式子的抽象含义是:对于给定观测数据,一个猜测是好是坏,取决于“这个猜测本身独立的可能性大小(先验概率,Prior )”和“这个猜测生成我们观测到的数据的可能性大小”(似然,Likelihood )的乘积。具体到我们的那个 thew 例子上,含义就是,用户实际是想输入 the 的可能性大小取决于 the 本身在词汇表中被使用的可能性(频繁程度)大小(先验概率)和 想打 the 却打成 thew 的可能性大小(似然)的乘积。

下面的事情就很简单了,对于我们猜测为可能的每个单词计算一下P(h) \times P(D | h) 这个值,然后取最大的,得到的就是最靠谱的猜测。

类似的方法可以用来处理自然语言的二义性问题,例如

The girl saw the boy with a telescope.

到底是 The girl saw-with-a-telescope the boy 这一语法结构,还是 The girl saw the-boy-with-a-telescope 呢?两种语法结构的常见程度都差不多(你可能会觉得后一种语法结构的常见程度较低,这是事后偏见,你只需想想 The girl saw the boy with a book 就知道了。当然,实际上从大规模语料统计结果来看后一种语法结构的确稍稍不常见一丁点,但是绝对不足以解释我们对第一种结构的强烈倾向)。那么到底为什么呢?

比价合理的解释是:如果语法结构是 The girl saw the-boy-with-a-telecope 的话,怎么那个男孩偏偏手里拿的就是望远镜——一个可以被用来 saw-with 的东东捏?这也忒小概率了吧。他咋就不会拿本书呢?拿什么都好。怎么偏偏就拿了望远镜?所以唯一的解释是,这个“巧合”背后肯定有它的必然性,这个必然性就是,如果我们将语法结构解释为 The girl saw-with-a-telescope the boy 的话,就跟数据完美吻合了——既然那个女孩是用某个东西去看这个男孩的,那么这个东西是一个望远镜就完全可以解释了(不再是小概率事件了)。

还有中文分词的问题,比如

给定一个句子(字串),如:

南京市长江大桥

如何对这个句子进行分词(词串)才是最靠谱的。例如:

  1. 南京市/长江大桥

  2. 南京/市长/江大桥

这两个分词,到底哪个更靠谱呢?

显然这个思想还可以推广到机器翻译的领域,甚至是图像识别垃圾邮件过滤

图像识别中的Bayes方法
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352

推荐阅读更多精彩内容

  • 今天是星期天,没捞着偷懒,七点就起床了,吃过饭,闺女就着急去辅导班,说寒假后的第一次上课可不能迟到了,要给老...
    一米阳光shi阅读 230评论 3 6
  • 与妻、儿说了多次的回乡捉蟹之行,终于在金秋十月(农历八月)成行了。 说是回故乡,其实离现在住的县城也就十公里路,坐...
    闲文志阅读 423评论 1 1
  • 今日体验,今天上班把奔驰车给梳理一下,给客户打了个电话,说一下当下车的情况,对于手中的在厂车辆必须全程管控,让客户...
    王全峰阅读 84评论 0 0
  • 俗话说“出名要趁早”,在我看来,成功要趁早。 出名趁早不一定是好事,有可能有才华却被荣誉冲昏了头,比如年轻的仲永,...
    蓝雪花a阅读 4,342评论 0 1
  • 天还未亮的马路,四下无人, 你站在空荡荡的十字路口, 说拍一张躲得过对酒当歌的夜。 却躲不过四下无人的街的应景照片...
    阳光上来阅读 147评论 0 1