一文搞懂朴素贝叶斯分类

一文搞懂朴素贝叶斯分类

阅读此文假设你已经具备高中数学知识

什么是朴素贝叶斯

要搞懂朴素贝叶斯分类,首先需要了解什么是贝叶斯定理和特征条件独立假设,朴素贝叶斯算法就是基于这两个来实现的分类方法。

贝叶斯定理

贝叶斯定理通俗点讲就是求在事件 B 已经发生的前提下,事件 A 发生的概率,记为 P(A|B),被就成为 A 的后验概率,也称为条件概率
其基本公式为:

P(A|B) = \frac{P (A)*P(B|A)} {P(B)}

P(A)就叫做先验概率边缘概率
P(B|A) 就是在 事件A 发生情况下的 B 事件的概率分布,也是条件概率

公式记不住怎么办,A 和 B 太容易混淆了。有办法,我们来推导一遍,首先 A 和 B 同时发生的概率被成为联合概率,表示为 P(AB)、P(A,B)、P(A ∩ B)。学过概率我们应该都知道,条件概率公式为:

P(A|B) = \frac{P(AB)}{P(B)}

若由两个事件推广到无穷多个事件,条件概率公式可扩展为:

P(A_{_1}A_{_2}...A_{_n}) = P(A_{_1})P(A_{_2}|A_{_1})...P(A_{_n}|A_{_1}A_{_2}...A_{n-1})

取 n=2, 令A_2 = B, 则P(AB) = P(A)P(B|A), 代入上述公式即可得到贝叶斯定理公式。

还有一个是全概率:设事件{Aj}是样本空间Ω的一个划分,且P(Ai)>0,那么对于任意事件 B,全概率公式为:

P(B) = \sum\limits_{i=1}^nP(A_i)P(B|A_i)

我们将 上面公式也带入到贝叶斯定理中去,最终 贝叶斯公式得到:

P(A|B) = \frac{P (A)*P(B|A)}{\sum\limits_{i=1}^nP(A_i)*P(B|A_i)}(公式①)

此处休息 2 分钟

特征条件独立

搞懂了贝叶斯定理,我们再来看特征条件独立,这个就很好理解了。先从数学角度描述一下,然后再通过例子详细说明。假设有一训练集(X,Y),输入 X 记为x=(x1, x2, ..., xn), 表示每个样本 x 都有 n 维特征,输出 Y 为类标记集合,记作 y={y1, y2, ..., yk}, 表示类标记集合有 k 种类别。如果新来一个样本 m,判断它属于 Y 的哪个类别, 转化为概率问题其实就是求解 m属于 Y 哪个类别的概率最大。在这过程中,我们假设 x 的各个特征都相互独立,这个就是特征条件独立假设,根据条件独立公式 P((A,B)|C) = P(A|C)* P(B|C)可得对应公式为:

P((X_1, X_2, ..., X_n) | Y_k) = P (X_1|Y_k) \ *...\ *P(X_n|Y_k) = \prod_{i=1}^nP(X_i|Y_k) (公式②)

再冷静一下

现在我们有公式一和公式二,将公式②代入公式①中,可得:
P(Y_k|X) = \frac{P(Y_k)*\prod_{i=1}^nP(X_i|Y_k)}{\sum\limits_{i=1}^kP(Y_k)*\prod_{i=1}^nP(X_i|Y_k)}
因此,朴素贝叶斯分类器表达式可以转化为为:
y = argmax\frac{P(Y_k)*\prod_{i=1}^nP(X_i|Y_k)}{\sum\limits_{i=1}^nP(Y_k)*\prod_{i=1}^nP(X|Y_k)} 公式③
又因为对于所有的样本中,公式③的分母都是一样的,朴素贝叶斯分类器表达式最终为:
y = argmax{P(Y_k)*\prod_{i=1}^nP(X_i|Y_k)}
至此可以看出,分类问题其实就是数学中求最大概率的问题。

通过例子了解朴素贝叶斯分类

比如 下一篇我们即将实现的垃圾短信分类器。首先大概确定一份邮件中出现哪些特征会被判定为垃圾邮件。假设有100封邮件样本,我们已经标注垃圾邮件有25封,垃圾邮件中含有“便宜”、“发票”、“乱码”等字样。根据朴素贝叶斯分类器原理,一个样本判断属于哪个类别是求最大概率问题。通过分析得到:

  • P(垃圾邮件) = 0.25 (先验概率)
  • P(便宜|垃圾邮件) = 10/25 = 0.4 (条件概率)
  • P(发票|垃圾邮件) = 15/25 = 0.6
  • P(乱码|垃圾邮件) = 20/25 = 0.8

通过朴素贝叶斯公式可得
P(垃圾邮件|(便宜,发票,乱码)) = 0.048 (后验概率)

  • P(正常邮件) = 0.75
  • P(便宜|正常邮件) = 5/75
  • P(发票|正常邮件) = 3/75
  • P(乱码|正常邮件) = 1/75
    通过朴素贝叶斯公式可得

P(正常邮件|(便宜,发票,乱码)) = \frac{1}{37500}

通过比较,发现 P(垃圾邮件|(便宜,发票,乱码))>P(正常邮件|(便宜,发票,乱码))。因此如果再来一份新邮件,如果出现便宜,乱码,发票字样,那么我们预测为垃圾邮件。
PS:由于在实际问题中,可能会出现某些特征条件概率为 0 的情况,并不是说不存在这种情况,而是数据样本未采集到对应的数据。针对这种情况,一般采用拉普拉斯平滑来修正,具体的用法暂时先不说明了,简单来说假设样本为 1 来避免。

最后

朴素贝叶斯假设就是对条件概率分布做了条件独立的假设,由于这是一个较强的假设,因此朴素两字也是这样来的,也正因为这个假设条件,使得朴素贝叶斯高效,而且易于实现,对应的缺点也因为假设太强,分类的性能不一定很高。
朴素贝叶斯分类其实在日常生活中我们经常会用到,比如说路上走来一个人,我们一眼就能看出它是男人还是女人,或是黄种人还是白种人。在企业中,判断信用卡诈骗,病人分类,新闻分类等都使用的是朴素贝叶斯分类。

在下一篇中,我们将运用朴素贝叶斯分类器算法来实现一个垃圾短信分类检测器,敬请期待。

原创文章,欢迎转载,转载请声明作者和出处,谢谢!

欢迎关注机器学习 Club ,在这里我将持续输出机器学习原创文章,尽量用朴实的语言带你领略技术的美妙。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,185评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,445评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,684评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,564评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,681评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,874评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,025评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,761评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,217评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,545评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,694评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,351评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,988评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,778评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,007评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,427评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,580评论 2 349

推荐阅读更多精彩内容