机器学习(五) 朴素贝叶斯

朴素贝叶斯是一种基于概率统计的分类方法。它在条件独立假设的基础上,使用贝叶斯构建算法,在文本处理领域有广泛的应用。
本文章主要从贝叶斯公式出发,然后介绍朴素贝叶斯的算法思想,再简单介绍贝叶斯网络便于理解。

  • 5.1 贝叶斯公式
  • 5.2 朴素贝叶斯
  • 5.3 算法流程
  • 5.4 算法变种

5.1 贝叶斯公式

贝叶斯公式主要是用来求逆概率。
举一个例子,现在有两种不同品牌方便面,然后两种方便面里面“再来一包”的概率是已知的,现在你室友给你说他重奖了,你需要判断你的室友选择的是哪种牌子的方便面。或者说,你室友选择两种不同牌子方便面的概率是多少。
从例子中来看,我们知道选择两种方便面的概率,以及在这两种方便面下中奖的概率,然后我们需要在已知中奖的情况下求两种方便面的概率。
用字母表示:在已知P(A)P(A^-)的情况下,同时知道P(B|A)P(B|A^-)的情况下,要求P(A|B)
公式如下:
P(A|B) = \frac{P(B|A)P(A)}{P(B)}
推导过程如下:
假如A和B相互独立,则有:
P(A,B)=P(A)P(B)
然后看条件概率公式:
P(B|A)=P(A,B)/P(A)
P(A|B)=P(A,B)/P(B)
两者合并即可得上述公式。
然后由全概率公式:


贝叶斯公式可以变为:

5.2 朴素贝叶斯

上述贝叶斯公式中只考虑了一个变量A对B的影响,而在机器学习算法中,有n维的X对Y造成影响,那么怎样设计让这些特征整体对Y有影响呢?
这里假设n维X,变量之间是相互独立的。
则有:




不同类别下概率最大的即为该样本所属的分类。



注:朴树贝叶斯中朴树二字指的就是特征值X之间相互独立。

5.3 算法流程

假设有一个已标记的数据集[x^{(i)},y^{(i)}],x^{(i)} = [x_1,x_2,...,X_n],y^{(i)}\in[y_1,y_2,...,y_n],现在要求一个为标价的样本所属的类别。
利用贝叶斯公式分别计算P(y1|x),P(y2|x),....,P(yn|x)的值
其中概率值最大的即为该样本的预测类别。

5.4 算法变种

(1)高斯朴素贝叶斯
高斯朴素贝叶斯是指特征属性为连续值时,而且分布服从高斯分布,那 么在计算P(x|y)的时候使用高斯分布的概率公式。
(2)伯努利朴素贝叶斯
伯努利朴素贝叶斯是指当特征属性为连续值时,而且分布服从伯努利分布, 那么在计算P(x|y)的时候使用伯努利分布的概率公式。
(3)多项式朴素贝叶斯
多项式朴素贝叶斯是指特征属性服从多项分布。

小结

朴素贝叶斯的主要优点有:
1)朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率。
2)对小规模的数据表现很好,能个处理多分类任务,适合增量式训练,尤其是数据量超出内存时,我们可以一批批的去增量训练。
3)对缺失数据不太敏感,算法也比较简单,常用于文本分类。
朴素贝叶斯的主要缺点有:   
1) 理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型给定输出类别的情况下,假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。而在属性相关性较小时,朴素贝叶斯性能最为良好。对于这一点,有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进。
2)需要知道先验概率,且先验概率很多时候取决于假设,假设的模型可以有很多种,因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。
3)由于我们是通过先验和数据来决定后验的概率从而决定分类,所以分类决策存在一定的错误率。

注:文章很大程度来源自简书简书飘涯的文章:
机器学习(14)——朴素贝叶斯
机器学习(15)——贝叶斯网络
本作者只是将知识点梳理供自己理解。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,386评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,142评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,704评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,702评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,716评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,573评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,314评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,230评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,680评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,873评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,991评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,706评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,329评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,910评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,038评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,158评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,941评论 2 355

推荐阅读更多精彩内容