统计学5-贝叶斯法则

贝叶斯

托马斯·贝叶斯(Thomas Bayes,1702-1761),18世纪英国神学家、数学家、数理统计学家和哲学家,概率论理论创始人,贝叶斯统计的创立者,“归纳地”运用数学概率,“从特殊推论一般、从样本推论全体”的第一人。【1】


TB.jpg

BTW,贝叶斯创立贝叶斯统计的本意,是要证明上帝的存在(步伟大的艾萨克·牛顿爵士的后尘),然而可能连他自己都没有想到的是,这一理论最终成为了人工智能和统计学赖以建立的“Holy Grail ”。

条件概率

直接介绍贝叶斯法则可能会让初学者有些茫然不知所措(比方说我。。。),让我们从贝叶斯法则的基础条件概率开始说起。

例如,假定人口总体的 1% 患癌。对一群人进行癌症检测,得到阳性检验测试结果的概率依赖于你是否具有某种特殊条件。如果具备条件,测试结果就是阳性的。

由此,我们设事件A和B:

  1. B:目标人患癌。
  2. \bar{B} :目标人不患癌。
  3. A:目标人癌症检验为阳性。
  4. \bar{A} :目标人癌症检验为阴性。

在实际的生产生活中,一些事件发生的概率往往是已知的,如人口总体中患癌的概率,这种事件的概率称为先验概率

通常事件并不像掷硬币和骰子一样是独立的。实际上,某个事件的结果依赖于之前的事件。被依赖事件可以理解为依赖事件的“因”,依赖事件是被依赖事件的“果”,例如这里,B(目标人患癌)就是被依赖事件,也就是“因”,而A(目标人癌症检测为阳性)就是依赖事件,是“果”。因为B事件发生了,才会有A事件发生。在B事件发生的情况下,A事件发生的概率就是条件概率

我们通过以下方式用公式表示两个事件的条件概率:


con_prop.png

在这个🌰中,我们要表达的意思是:


dis.png

其中 |代表 "鉴于",∩ 代表 "和"。

  • 联合概率
    P(A∩B):称为联合概率。意思是事件A B同时发生的概率。在这个🌰里,表示目标人患癌且检测结果为阳性。

  • 条件概率计算公式的变形:乘法公式
    P(A∩B)=P(B)P(A|B)
    利用这个公式把复杂概率分解成互不相容的简单事件概率:
    P(A|B)+P(\bar{A}|B) = 1

  • 由条件概率公式可得全概率公式
    P(A) = P(A|B) * P(B) + P(A|\bar{B}) * P(\bar{B})

贝叶斯法则

后验概率

后验概率和条件概率类似,都是描述在一个事件发生的情况下,另一个事件发生的概率。但是与条件概率的不同之处在于,它限定了目标事件为被依赖事件,而其中的条件为依赖事件,通常就是观测结果。 如果说条件概率是由因求果,那么后验概率就是由果求因。【2】

回到我们之前的🌰:
在A事件(目标人癌症检测为阳性)发生的情况下,B事件(目标人患癌)发生的概率就是后验概率
P(B|A)

贝叶斯法则定义

贝叶斯法则就是由先验概率求后验概率的公式。

贝叶斯法则, 尽管它是一个数学公式,但其原理毋需数字也可明了。如果你看到一个人总是做一些好事,则那个人多半会是一个好人。这就是说,当你不能准确知悉一个事物的本质时,你可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率。 用数学语言表达就是:支持某项属性的事件发生得愈多,则该属性成立的可能性就愈大【3】。

求解过程

我们将前面的问题完整化:
假定人口总体的 1%患癌。如果患癌,检测结果为阳性的可能性为 90%,如果不患癌,检测结果为阴性的可能性为 90%,在这种情景下,如果你的测试结果为阳性,患癌的概率是多少?

以下是问题求解过程的简图:


sol.png
  • 首先看图的左上角:
    事件C表示人口总体中患癌的概率(先验概率):
    P(C) = 0.01

  • 经过Test(癌症检测),发现:

  1. 患癌人群中,检验结果为阳性的概率:P(Pos|C):0.9
  2. 非患癌人群中,检验结果为阴性的概率:P(Neg|\bar{C}):0.9
  • 右图P(Pos|C) 为0.9
  • 右图P(Pos|\bar{C})
    由上文乘法公式的推论,P(Pos|\bar{C}) = 1 - P(Neg|\bar{C}) = 0.1
  • 由条件概率计算公式:
    P(C,Pos) = P(Pos|C) * P(C) = 0.9 * 0.01 = 0.009 (图左下角红色部分)
    P(\bar{C},Pos) = P(Pos|\bar{C}) * P(\bar{C}) = 0.1 * 0.99 = 0.099(图左下角绿色部分)
  • 归一化
    因为P(C,Pos)和P(\bar{C},Pos) 的和不为1,所以需要对前两个概率归一化,即分别求他们对和的比例。二者的和为紫色线内的部分。
    P(C|Pos) = P(C,Pos) / ( P(C,Pos) + P(\bar{C},Pos) ) = 0.009/(0.009 + 0.099) = 0.083
    P(\bar{C}|Pos) = P(\bar{C},Pos) / ( P(C,Pos) + P(\bar{C},Pos) ) = 0.099/(0.009 + 0.099) = 0.917
  • 最终,我们通过先验概率求出了后验概率。
    P(C|Pos) = 0.083
    P(\bar{C}|Pos) = 0.917

specificity

特异度,如果不患癌,检测结果为阴性的可能性为 90%。

sensitivity

敏感度,如果患癌,检测结果为阳性的可能性为 90%。

【1】托马斯·贝叶斯
【2】后验概率与条件概率区别 这里作者为了强调后验概率和条件概率的区别,将条件概率狭义的理解为“由因求果”,不是很严谨,但是便于突出后验概率的特点。还请读者注意。
【3】贝叶斯公式

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,142评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,298评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,068评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,081评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,099评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,071评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,990评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,832评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,274评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,488评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,649评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,378评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,979评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,625评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,643评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,545评论 2 352

推荐阅读更多精彩内容

  • 1 贝叶斯方法 长久以来,人们对一件事情发生或不发生的概率,只有固定的0和1,即要么发生,要么不发生,从来不会去考...
    zhoulujun阅读 9,454评论 0 20
  • 基本公式 全概率公式:设试验E的样本空间为S,A为E的事件,B1,B2,...,Bn为S的一个划分,并且P(Bi)...
    iAstrolien阅读 1,940评论 0 3
  • 学习的本质, 不在于记住了知识, 而在于它触发了你的思考。 父母教育孩子,仅有爱够吗? 除了爱,还要懂得孩子的成长...
    祖迩阅读 54评论 0 0
  • 不知为什么,我特别喜欢捕捉阳光。没当天空有一丝耀眼的阳光的时候,我就喜欢拿起手机拍下那一丝光芒。总觉得那光芒万丈,...
    简书的简妹阅读 299评论 0 0
  • 2018年9月28日,我在坚持星球训练营迎来了我的第一根面条——一位美丽的小姐姐,那天晚上我第一次与她沟通的时候,...
    东哥在江湖阅读 550评论 4 2