机器学习实战-朴素贝叶斯分类算法

1、背景

我们其实无时无刻不在使用朴素贝叶斯分类算法,只是没有觉察到而已。比如在晚上走在灯光暗淡的路上,前面出现一个人影。可能是男/女的概率分别是50%。但假如能看出其头发为长发时,你可能会猜这个人是女生的概率为90%。这就是朴素贝叶斯算法的简单应用。

2、贝叶斯概率公式

(1)条件概率:


条件概率

由以上文氏图来理解条件概率的定义:就是指在B事件发生的情况下,事件A发生的概率,表示为P(A|B),由图得出条件概率的计算公式为:P(A|B)=P(AB)/P(B)。

(2)乘法公式

由条件概率公式可得:P(AB)=P(A|B)P(B)=P(B|A)P(A) ,这就是乘法公式,其推广的形式为 P(A1A2...An-1An)=P(A1)P(A2|A1)P(A3|A1A2)...P(An|A1A2...An-1)(N>=2)

(3)全概率公式

继续文氏图:

全概率公式

图中A、A'是互斥事件,且共同构成样本空间S。那么B则可通过如下表达取得:P(B)=P(BA)+P(BA'),再由刚才的乘法公式得:P(B)=P(B|A)*P(A)+P(B|A')*P(A')

正式的表达为:假设B1、B2...为互斥事件,且B1UB2...为S,则成为B1、B2...为样本空间S的一个划分,则全概率公式表达为:对于任意事件A

全概率公式

理解:全概率公式的意义是,当计算一个随机事件A的概率时,可通过将A分割来计算。分割不是随机的,而是在一个划分B1、B2...中分割成AB1、AB2...,从而A=AB1+AB2+...,再由加法公式得:P(A)=P(AB1)+P(AB2)+...=P(A|B1)P(B1)+P(A|B2)P(B2)+...+P(A|Bn)P(PBn)

例如:某车间用甲、乙、丙三台机床进行生产,各台机床次品率分别为5%,4%,2%,它们各自的产品分别占总量的25%,35%,40%,将它们的产品混在一起,求任取一个产品是次品的概率。 解:设.....     P(A)=25%*5%+4%*35%+2%*40%=0.0345

(4)贝叶斯概率公式的理解


贝叶斯概率公式

这是上述条件概率公式的一个变形表达,其中P(A)成为先验概率,即在事件B发生之前,事件A的概率判断,或者事件A其实是事件B发生的原因;而P(A|B)称之为后验概率,即在事件B发生之后,我们再对导致事件B发生的原因A分析的重新评估。另外:P(B|A)/P(B)称之为“可能性函数”,是一个调整因子,使得预估的概率更加接近于真实的概率。

即:后验概率 = 先验概率 x 调整因子

所以贝叶斯公式的理解就是:先计算一下先验概率,再集合实验结果,形成调整因此,看实验是增强还是削弱先验概率,从而使得更接近真实概率的后验概率。如果调整因子>1,则先验概率被增强,事件A发生的概率更大;如果=1,则事件B的发生,无助于对先验概率的判断;如果<1;则先验概率被削弱,事件A发生的概率变小。

3、贝叶斯公式如何应用于分类?

再回刚才通过人影识别男女的例子,我们来理解如何用贝叶斯公式来实现分类。

(1)假如

待分类项别

是一个待分类的项,其中a是各个属性。就好比x是一个人影,具有如下特征,长发,身高165等等;

(2)

类别集合

C为类别结果集,比如男、女

(3)

后验概率

需要计算再x事件(人影)情况下,属于类别y1、y2(男、女)的概率分别是多少;

(4)

最大的概率

计算的概率最大的值,就是最接近事实的概率值。

(5)计算

贝叶斯公式

P(X)针对于各个类别的y都是相同值,因此在求最大值时可忽略计算,因此只需计算分子即可。又由于x的各个属性在朴素贝叶斯定义下是互斥的,因此分子由可表达为

分子

从而只需要计算各个属性在各个类别中的概率P(aj|yi)即可。

(6)调整

上述分子的公式其实是M+1个概率值相乘,概率是0-1范围的一个值,M+1个值相乘很有可能是一个极小的值,因此需要做一些调整才方便计算。

这种情况通常就是取log,反正只是求最大值,而不是取真实的值,而log又是递增函数,因此不会影响取最大值的范围。从而就把计算乘法转为了计算m+1个值的加法。

4、文本分类的应用

《机器学习实战》这本书给出的简单例子就是用朴素贝叶斯算法来区分文本属于侮辱、文明的分类,例如:

文本分类

这是六个帖子提取的分词,且已分好类别。当给出另一个文本时,可通过这个文本,结合贝叶斯算法给出文本的分类。

通过刚才计算分子的分类,在这里分类空间y为{侮辱、正常},x为单词的集合。因此,P(aj|yi)就是一个分类中,没个单词出现的概率。具体的程序请参考和查询该书。

5、补充

所以利用朴素贝叶斯算法基本流程就是:

流程

其具备有点:在数据量较少仍然有效,计算相对简单,对多分类仍有效。缺点:对数据类型、准备相对苛刻,属较多时运算量大等问题。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 222,252评论 6 516
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,886评论 3 399
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 168,814评论 0 361
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,869评论 1 299
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,888评论 6 398
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,475评论 1 312
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 41,010评论 3 422
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,924评论 0 277
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,469评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,552评论 3 342
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,680评论 1 353
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,362评论 5 351
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 42,037评论 3 335
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,519评论 0 25
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,621评论 1 274
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 49,099评论 3 378
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,691评论 2 361

推荐阅读更多精彩内容