伯努利朴素贝叶斯

TIME : 2018-05-17

sklearn.naive_bayes.BernoulliNB


与多项式模型一样,伯努利模型适用于离散特征的情况,所不同的是,伯努利模型中每个特征的取值只能是1和0(以文本分类为例,某个单词在文档中出现过,则其特征值为1,否则为0).
伯努利模型和多项式模型是一致的,BernoulliNB需要比MultinomialNB多定义一个二值化的方法,该方法会接受一个阈值并将输入的特征二值化(1,0).当然也可以直接采用MultinomialNB,但需要预先将输入的特征二值化.

参数:

BernoulliNB(alpha=1.0, binarize=0.0, fit_prior=True,class_prior=None)

  • alpha
  • binarize
  • fit_prior
  • class_prior

[其他参数说明见<<多项式朴素贝叶斯>>文章]

属性:
  • class_log_prior_

参数说明:


参数 binarize:将数据特征二值化的阈值
<=binarize的值处理为0,>binarize的值处理为1

import numpy as np  
from sklearn.naive_bayes import BernoulliNB  
x = np.array([[1,2,3,4],[1,3,4,4],[2,4,5,5]])
# 等价于 <=>  X = np.array([[0,0,0,1],[0,0,1,1],[0,1,1,1]]) 
y = np.array([1,1,2])  
clf = BernoulliNB(alpha=2.0,binarize = 3.0,fit_prior=True)  
clf.fit(x,y)  

属性说明:


属性 class_log_prior_
先验概率对数值,类先验概率=各类的个数/类的总个数

clf.class_log_prior_  
#>>output:
[-0.40546511, -1.09861229]  

等价于 <=>
print(np.log(1/3))
>>output:-1.0986122886681098

print(np.log(2/3))  
>>output:-0.40546510810816444

属性 feature_log_prob_
指定类的各特征概率(条件概率)对数值,返回形状为(n_classes, n_features)数组

计算过程:
假设X对应的四个特征为A1、A2、A3、A4,类别为c1,c2,类别为c1时,特征A1的概率为:P(A1|c=c1) = P(A1=0|c=c1)* A1+P(A1=1|c=c1)* A1
由于A1=0, 所以:
P(A1|c=c1)=(类c1中 含有A1特征的样本数 +α )/(当前类别的样本数 + α*类别数)

import numpy as np  
from sklearn.naive_bayes import BernoulliNB  
X = np.array([[1,2,3,4],[1,3,4,4],[2,4,5,5]])  
y = np.array([1,1,2])  
clf = BernoulliNB(alpha=2.0,binarize = 3.0,fit_prior=True)  
clf.fit(X,y)
print(clf.feature_log_prob_) 
>>output:
[[-1.09861229 -1.09861229 -0.69314718 -0.40546511]  
 [-0.91629073 -0.51082562 -0.51082562 -0.51082562]]  

print(
[np.log((2+2)/(2+2*2))*0+np.log((0 + 2 )/(2+    2 * 2))*1,
 np.log((2+2)/(2+2*2))*0+np.log((0 + 2 )/(2+    2 * 2))*1,
 np.log((1+2)/(2+2*2))*0+np.log((1 + 2 )/(2+    2 * 2))*1,
 np.log((0+2)/(2+2*2))*0+np.log((2 + 2 )/(2+    2 * 2))*1])
         ↑A                      ↑B  ↑α   ↑样本  ↑α  ↑类别数     
#说明:
二值化后如下
[[0,0,0,1],   类别1
 [0,0,1,1],   类别1
 [0,1,1,1]]   类别2
A列为2,2,1,0  类别1中0个数        
B列为0,0,1,2  类别2中1个数
样本:为当前类别样本数
>>output: 
[-1.0986122886681098, -1.0986122886681098, 
-0.69314718055994529, -0.40546510810816444]  

print(
[np.log((0+2)/(1+2*2))*1,
 np.log((1+2)/(1+2*2))*1,
 np.log((1+2)/(1+2*2))*1,
 np.log((1+2)/(1+2*2))*1])
>>output:
>[-0.916290731874155, -0.5108256237659907, 
  -0.5108256237659907, -0.5108256237659907]

属性 class_count_
按类别顺序输出其对应的个数

print(clf.class_count_)  

#>>output:[ 2.,  1.]  

属性 eature_count_
各类别各特征值之和,按类的顺序输出,返回形状为(n_classes, n_features) 的数组

clf.feature_count_  

#>>output:
[[ 0.,  0.,  1.,  2.],  
[ 0.,  1.,  1.,  1.]]

方法说明:


[见<<多项式朴素贝叶斯>>文章]

伯努利与多项式区别:


多项式模型中:

设某文档d=(t1,t2,…,tk),tk是该文档中出现过的单词,允许重复,则

(1)先验概率P(c)= 类c下样本总数/整个训练样本的样本总数

(2)类条件概率P(tk|c) =(类c下单词tk数目+α)/(指定类下所有特征出现次数之和+类别数*α)

伯努利模型中:

(1)先验概率P(c)= 类c下样本总数/整个训练样本的样本总数

(2)类条件概率P(tk|c)=(类c下包含单词tk的文件数+α)/(类c下样本数+类别数*α)
[注:如果有平滑修正,需要加平滑修正值]

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,651评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,468评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,931评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,218评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,234评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,198评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,084评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,926评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,341评论 1 311
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,563评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,731评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,430评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,036评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,676评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,829评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,743评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,629评论 2 354

推荐阅读更多精彩内容