浅谈贝叶斯

不论是学习概率统计还是机器学习的过程中，贝叶斯总是是绕不过去的一道坎，大部分人在学习的时候都是在强行地背公式和套用方法，没有真正去理解其牛逼的思想内涵。我看了一下自己学校里一些涉及到贝叶斯统计的课程，content里的第一条都是Philosophy of Bayesian statistics。

历史背景

什么事都要从头说起，贝叶斯全名为托马斯·贝叶斯(Thomas Bayes，1701-1761),是一位与牛顿同时代的牧师，是一位业余数学家，平时就思考些有关上帝的事情，当然，统计学家都认为概率这个东西就是上帝在掷骰子。当时贝叶斯发现了古典统计学当中的一些缺点，从而提出了自己的“贝叶斯统计学”，但贝叶斯统计当中由于引入了一个主观因素（先验概率，下文会介绍），一点都不被当时的人认可。直到20世纪中期，也就是快200年后了，统计学家在古典统计学中遇到了瓶颈，伴随着计算机技术的发展，当统计学家使用贝叶斯统计理论时发现能解决很多之前不能解决的问题，从而贝叶斯统计学一下子火了起来，两个统计学派从此争论不休。

什么是概率？

什么是概率这个问题似乎人人都觉得自己知道，却有很难说明白。比如说我问你 掷一枚硬币为正面的概率为多少？，大部分人第一反应就是50%的几率为正。

不好意思，首先这个答案就不正确，只有当材质均匀时硬币为正面的几率才是50%（所以不要觉得打麻将的时候那个骰子每面的几率是相等的，万一被做了手脚呢）。

好，那现在假设硬币的材质是均匀的，那么为什么正面的几率就是50%呢？

有人会说是因为我掷了1000次硬币，大概有492次是正面，508次是反面，所以近似认为是50%，说得很好（掷了1000次我也是服你）。

掷硬币的例子说明了古典统计学的思想，就是概率是基于大量实验的，也就是 大数定理。

那么现在再问你，有些事件，例如：明天下雨的概率是30%；A地会发生地震的概率是5%；一个人得心脏病的概率是40%…… 这些概率怎么解释呢？

难道是A地真的100次的机会里，地震了5次吗？

肯定不是这样，所以古典统计学就无法解释了。

再回到掷硬币的例子中，如果你没有机会掷1000次这么多次，而是只掷了3次，可这3次又都是正面，那该怎么办？难道这个正面的概率就是100%了吗？这也是古典统计学的弊端。

举个例子：生病的几率

一种癌症，得了这个癌症的人被检测出为阳性的几率为90%，未得这种癌症的人被检测出阴性的几率为90%，而人群中得这种癌症的几率为1%，一个人被检测出阳性，问这个人得癌症的几率为多少？

猛地一看，被检查出阳性，而且得癌症的话阳性的概率是90%，那想必这个人应该是难以幸免了。
那我们接下来就算算看。

我们用 $A$ 表示事件 “测出为阳性”, 用 $B_{1}$ 表示“得癌症”, $B_{2}$ 表示“未得癌症”。
根据题目，我们知道如下信息:
$P(A|B_{1})=0.9, P(A|B_{2})=0.1, P(B_{1})=0.01, P(B_{2})=0.99$

那么我们现在想得到人群中检测为阳性且得癌症的几率 $P(B_{1}A)$ ：

$P(B_{1}A)=P(B_{1})*P(A|B_{1})=0.01*0.9=0.009$

这里 $P(B_{1}A)$ 表示的是联合概率，得癌症且检测出阳性的概率是人群中得癌症的概率乘上得癌症时测出是阳性的几率，是0.009。
同理可得未得癌症且检测出阳性的概率：

$P(B_{2}A)=P(B_{2})*P(A|B_{2})=0.99*0.1=0.099$

这个概率是什么意思呢？其实是指如果人群中有1000个人，检测出阳性并且得癌症的人有9个，检测出阳性但未得癌症的人有99个。可以看出，检测出阳性并不可怕，不得癌症的是绝大多数的，这跟我们一开始的直觉判断是不同的！可直到现在，我们并没有得到所谓的“在检测出阳性的前提下得癌症的概率 ”，怎么得到呢？很简单，就是看被测出为阳性的这108(9+99)人里，9人和99人分别占的比例就是我们要的。

所以阳性得癌症的概率 $P(B_{1}|A)$ 为： $\frac {0.009}{0.099+0.009} \approx 0.083$ ,

阳性未得癌症的概率 $P(B_{2}|A)$ 为： $\frac {0.099}{0.099+0.009} \approx 0.917$ 。

这里 $P(B_{1}|A)$ ， $P(B_{2}|A)$ 中间多了这一竖线，表示的也是条件概率，而这个概率就是贝叶斯统计中的 后验概率！

前面提到的人群中患癌症与否的概率 $P(B_{1})$ ， $P(B_{2})$ 就是 先验概率！

我们知道了先验概率，根据观测值(observation)，也可称为test evidence：是否为阳性，来判断得癌症的后验概率，这就是基本的贝叶斯思想，我们现在就能得出本题的后验概率的公式为：
$P(B_{i}|A) = \frac {P(A|B_{i})*P(B_{i})}{P(A|B_{1})*P(B_{1})+P(A|B_{2})*P(B_{2})}$

由此就能得到如下的贝叶斯公式的一般形式。

最后编辑于：2018.11.14 09:55:25

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,496评论 6赞 501
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,407评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,632评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,180评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,198评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,165评论 1赞 299
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,052评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,910评论 0赞 274
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,324评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,542评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,711评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,424评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,017评论 3赞 326
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,668评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,823评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,722评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,611评论 2赞 353

浅谈贝叶斯

浅谈贝叶斯

历史背景

什么是概率？

举个例子：生病的几率

推荐阅读更多精彩内容