朴素贝叶斯算法

1、前言

    朴素贝叶斯方法的实现相对简单,但是学习与预测的效率较高,该算法是除了集成学习算法之外较为常用的一种算法。

2、基本概念

    想要理解该算法,需知道以下几个概念。

2.1 联合概率

    联合概率就是指多个变量同时成立的概率。记作:P(X=a,Y=b)或P(AB),意为,当变量X取a,变量Y取b时的概率。

2.2 边缘概率

    边缘概率就是只与某一个变量相关的概率,如:P(X=a)或P(Y=b)。
与联合概率的关系为:
P(X=a)=\sum_{b} P(X=a, Y=b)
P(Y=b)=\sum_{a} P(X=a, Y=b)

2.3 条件概率

    条件概率就是已知某个变量的取值时,另外一个变量的取某值的概率,也就是在Y=b成立的前提下,X=a的概率,记作,P(X=a|Y=b),或P(A|B)

2.4 贝叶斯公式

    首先给出上述三个概率关系公式:
P(X=a | Y=b)=\frac{P(X=a, Y=b)}{P(Y=b)}
理解:上式等价于
P(X=a, Y=b) = {P(Y=b)}*P(X=a | Y=b)
等式左边:X=a,Y=b都发生的概率;
等式右边:Y=b发生的情况下,X=a发生概率,乘以Y=b发生的概率。
作图说明:


X=a,Y=b发生的概率就等于在Y=b发生的条件下,X=a发生的概率,但是Y=b发生也是有概率的,所以要乘以Y=b发生的概率。
同样可得
P(X=a, Y=b) = {P(X=a)}*P(Y=b|X=a)
根据以上公式,可得(贝叶斯公式)
P(B | A)=\frac{P(A | B) P(B)}{P(A)}
其中(以下内容来自https://www.jianshu.com/p/c59851b1c0f3):

(1)P(A)是A的先验概率或边缘概率。之所以称为"先验"是因为它不考虑任何B方面的因素。

(2)P(A|B)是已知B发生后A的条件概率(或称为“释然”),由于已知B的取值而被称作A的后验概率。

(3)P(B|A)是已知A发生后B的条件概率(或称为“释然”),由于已知A的取值而被称作B的后验概率。

(4)P(B)是B的先验概率或边缘概率,也作标准化常量。

3、贝叶斯分类器通俗理解

    在实际分类器中,贝叶斯公式变为:
P(类别 | 属性)=\frac{P(属性 | 类别) P(类别)}{P(属性)}
例如:
有类别0、1,属性A、B、C
P(类别0 | 属性A,属性B,属性C)=\frac{P(属性A,属性B,属性C | 类别0) P(类别0)}{P(属性A,属性B,属性C)}
理解:
1)最终求得是给定各个属性(A、B、C)的取值,求该样本属于某个类别的概率;

2)如果各个属性独立(这也是“朴素”二字来源),则P(属性A,属性B,属性C | 类别0)=P(属性A | 类别0)*P(属性B | 类别0)*P(属性C | 类别0);以上只是简单理解,在真实分类器中,该概率是利用极大释然估计求解出来,详见https://blog.csdn.net/qq_39355550/article/details/81809467

3)P(类别)根据大数定理可知,训练样本包含足够多的独立分布时,P(类别)可以用其在训练样本中的频率代替;

4)P(属性A,属性B,属性C)与类别无关,如果属性独立,则直接用各个属性频率相乘(P(属性A)*P(属性B)*P(属性C))进行代替;

5)根据以上分析,P(类别 | 属性)便可以通过贝叶斯公式求得,最终比较在已知的属性下,各个类别的概率大小,即可确定最终样本的类别。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,372评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,368评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,415评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,157评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,171评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,125评论 1 297
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,028评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,887评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,310评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,533评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,690评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,411评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,004评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,659评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,812评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,693评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,577评论 2 353

推荐阅读更多精彩内容

  • 忘光了概率统计的知识还想学朴素贝叶斯算法?这一篇就是为你准备的。虽然如此,作为初学者,别指望 5 分钟就能完全理解...
    kamidox阅读 2,687评论 4 7
  • 在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数的分类算法,比如决策树,KNN,逻...
    云时之间阅读 1,894评论 6 24
  • 序 本文主要简单研究一下朴素贝叶斯算法是如何对文本进行分类的。 贝叶斯算法 贝叶斯方法把计算“具有某特征的条件下属...
    go4it阅读 3,331评论 0 1
  • 叹时光飞逝,转眼又要和2018说再见了。学画一年,从盲目的沾沾自喜到迷茫的停滞不前,从无知者无畏到感知自己的...
    rh8800阅读 464评论 2 9
  • 既然无处可逃, 不如喜悦。 既然没有净土, 不如清心。 既然没有如愿, 不如释然。 心态正了, 便能看清世间烦恼,...
    诗梦晨曦阅读 54评论 0 1