朴素贝叶斯的理解

最近一段时间主要精力在朴素贝叶斯的学习上,现在总结一下。
有关贝叶斯的历史,这里先不写了,有时间我会补充进去,听过他的个人故事觉得还是蛮有意思,牛逼的人生活多多少少都会有遗憾,贝叶斯就是这样,有时间我会补充进去。

  • 基础理解

贝叶斯方法有很多分类,朴素贝叶斯是最简单的应该说,还有什么多项式贝叶斯,高斯贝叶斯,等等吧。这些我会陆续描述到,但是我目前的进阶还是无法深入的吃透这些算法,当搬运工也只是浪费时间而已,但是只要我有新的理解,我都会补充进去。
朴素贝叶斯方法,native bayes method。贝叶斯方法是一种分类算法。通俗的说,通过已知的数据样本,来预测未知数据的属性。
分类器里,我目前接触到的有SVM,感知机分类,接下来就是朴素贝叶斯分布了。
贝叶斯有一个最为知名的公式。
他的牛逼之处在于,解决了一些古典统计概率所不能解决的问题。传统意义的统计我们是说,有多少事件A同时有多少事件B发生,我们计算一个频数,当数据样本一定大的时候,我们就称之为概率。但是,这种算法很有局限性,比如说,明天下雨的概率是30%,一个人的心脏病的概率是40%,某地发生地震的概率是5%,当遇到这种情况时,我们传统的统计学就遇到了瓶颈。古典统计学没法对此解释,难道真的是某地100次机会里地震了5次?同理,抛硬币,我们抛了三次,三次都是正面,我们就认为正面的概率是100%?所以,这也是古典统计学的弊端。
古典统计结果的准确性过于依赖数据样本的大小。而贝叶斯的牛逼在于,当数据样本不大时,可以通过引入经验概率作为先验概率,从而反向计算后验概率。假使结果已成为既定事实,那么造成原因什么,这就是贝叶斯在做的。

  • 一些概念

朴素贝叶斯的假设:条件相互独立。条件独立假设就是:



先验概率&后验概率:

假如某一个不确定事件发生的主观概率因为某一个新的情况发生的改变,那么改变前的就称为先验概率,改变后的就称为后验概率。

比如:医院里有病人检查,历史上,癌症确诊病人被诊断为阳性的概率是90%,非癌症患者被诊断为阳性的概率为10%,现在有一个病人被诊断为阳性,那么他是不是癌症?

如果放到不信任科学的人这里,那这个病人八九不离十是癌症了,如果按照我们传统意义的统计学来说,我们就要去调查,有多少病人是确诊的阳性,有多少确诊阳性的病人是癌症患者,而统计出来的频数换来的概率如果样本太少,在大数定律面前,可信度又被否认。

在这里我们用贝叶斯理论进行评估,我们了解到单纯癌症患者的概率是在1%,也就是医院里有100个病人,估计就1名患者是癌症。这个在贝叶斯的计算里,我们称为“先验概率”,也就是我们在对应具体情况前的一种主观意识。通过贝叶斯计算出来的结果,我们叫做“后验概率”,是针对具体情况的具体预测。我们通过贝叶斯理论计算出来,该阳性患者是癌症的概率为0.084,该阳性患者不是癌症的概率是0.917,根据后验概率最大化思想,非癌症的概率大于癌症概率,因此,这位病人不是癌症患者。


似然函数

说到似然函数需要区分一个概念,概率函数。
概率函数:就是不确定样本的情况下,我们知道某某事件发生的概率。
似然函数:不清楚某某事件发生的概率,只知道样本数,这时候我们得到一个函数关系。
我们假设\theta为单个事件发生的概率,\x为样本数,
那么,概率函数P=f(x),是一个有关x的概率分布,而似然函数就是P=f(theta),是一个有关theta的概率分布。
在似然函数中,我们可以很容易找到,函数的极值,也就是极大似然定理。
具体参考:https://blog.csdn.net/zengxiantao1994/article/details/72787849

  • 案例

我们常见的贝叶斯公式:



这里,P(w):先验概率,P(w|x):后验概率,P(x|w):类条件概率
但是,实际问题中,我们获得的数据样本可能只有有限数目的样本数据,而先验概率和类条件概率都是未知的。根据仅有的样本数据进行分类时,我们一般需要先对先验概率和类条件概率进行估计,然后再套用贝叶斯分类器。

  1. 先验概率的估计
    (1) 每个样本的自然状态是已知的(有监督学习,样本标签已知);
    (2)依靠经验
    (3) 用训练样本的各类频率估计
  2. 类条件概率的估计
    把概率密度估计问题转化为参数估计问题,选择概率密度函数,通过极大似然估计方法。

这篇主要概念,接下来会陆续把理论用于实际项目中,方便理解

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,864评论 6 494
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,175评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,401评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,170评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,276评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,364评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,401评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,179评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,604评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,902评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,070评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,751评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,380评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,077评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,312评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,924评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,957评论 2 351

推荐阅读更多精彩内容