机器学习笔记:朴素贝叶斯分类器(二)

在前一篇文章中,我们通过计算频率的方式来计算条件概率。对于未观测到的样本,其条件概率为0。这种假设看起来不太合理。现在我们要采用另一种方式来计算条件概率。

我们假设特征之间相互独立,并服从正态分布。所有分类为C的样本的集合为Dc,集合中第i个特征服从正态分布:Xi ~ N(0,1)。通过计算Dc中所有特征的条件概率,最终得到单个样本属于分类C的条件概率,从而达到分类的目的。

计算过程如下:


贝叶斯分类.png

以上文的数据来演示贝叶斯分类算法:

import math

#是否985(0-否  1-是)  学历(1-本科  2-硕士  3-博士)   技能(1-C++  2-JAVA)   是否录用(0-否  1-是)
samples = [[1, 1, 1, 0],
           [1, 1, 2, 1],
           [0, 2, 2, 1],
           [0, 2, 1, 0],
           [1, 1, 2, 1],
           [0, 2, 1, 0],
           [1, 2, 2, 1],
           [1, 3, 1, 1],
           [0, 3, 2, 1],
           [0, 1, 2, 0]]

#分布参数
feature_cnt = 3
c_f_miu = {}
c_f_sigma = {}

def get_samples_by_class(c_value):
    ret_samples = []
    for sample in samples:
        c_tmp = sample[feature_cnt]
        if c_value == c_tmp:
            ret_samples.append(sample)
    return ret_samples

#计算类别C(不录用、录用)条件下,每个特征的正态分布参数(miu_c_i, sigma_c_i)
def calc_miu_sigma_for_C_F(c_samples, f_idx):
    sample_cnt = len(c_samples)
    if sample_cnt == 0:
        return

    f_value_sum = 0
    for sample in c_samples:
        f_value_sum += sample[f_idx]
    miu = f_value_sum / sample_cnt

    variance = 0
    for sample in c_samples:
        variance += ((sample[f_idx] - miu) * (sample[f_idx] - miu))
    sigma = variance / sample_cnt

    c_value = c_samples[0][feature_cnt]
    key_str = 'c{c_val}_f{f_idx_val}'.format(c_val=c_value, f_idx_val=f_idx)
    c_f_miu[key_str] = miu
    c_f_sigma[key_str] = sigma

#计算一个分类、一个特征的条件概率
def calc_P_C_F(c_value, f_idx, f_value):
    key_str = 'c{c_val}_f{f_idx_val}'.format(c_val=c_value, f_idx_val=f_idx)
    miu = c_f_miu[key_str]
    sigma = c_f_sigma[key_str]
    p = (math.exp(-(f_value - miu) * (f_value - miu) / (2 * sigma))) / math.sqrt(math.pi * 2 * sigma)
    return p

#计算一个样本的条件概率P(C|f1,f2,f3)
def calc_P_C_sample(c_value, p_c_val, f1_val, f2_val, f3_val):
    p1 = calc_P_C_F(c_value, 0, f1_val)
    p2 = calc_P_C_F(c_value, 1, f2_val)
    p3 = calc_P_C_F(c_value, 2, f3_val)
    p_c_sample = p_c_val * p1 * p2 * p3
    return p_c_sample

if __name__ == "__main__":
    samples0 = get_samples_by_class(0)
    samples1 = get_samples_by_class(1)
    calc_miu_sigma_for_C_F(samples0, 0)
    calc_miu_sigma_for_C_F(samples0, 1)
    calc_miu_sigma_for_C_F(samples0, 2)
    calc_miu_sigma_for_C_F(samples1, 0)
    calc_miu_sigma_for_C_F(samples1, 1)
    calc_miu_sigma_for_C_F(samples1, 2)

    #计算类别的概率P_C
    cnt = len(samples)
    p_c0 = len(samples0) / cnt
    p_c1 = len(samples1) / cnt
    #计算样本的条件概率
    for sample in samples:
        p0 = calc_P_C_sample(0, p_c0, sample[0], sample[1], sample[2])
        p1 = calc_P_C_sample(1, p_c1, sample[0], sample[1], sample[2])
        print('sample: (%d, %d, %d), result %d ===> p0 = %f, p1 = %f' %(sample[0], sample[1], sample[2], sample[3], p0, p1))

所有样本的预测结果如下:

sample: (1, 1, 1), result 0 ===> p0 = 0.031035, p1 = 0.008020
sample: (1, 1, 2), result 1 ===> p0 = 0.008181, p1 = 0.088405
sample: (0, 2, 2), result 1 ===> p0 = 0.031035, p1 = 0.088405
sample: (0, 2, 1), result 0 ===> p0 = 0.117735, p1 = 0.008020
sample: (1, 1, 2), result 1 ===> p0 = 0.008181, p1 = 0.088405
sample: (0, 2, 1), result 0 ===> p0 = 0.117735, p1 = 0.008020
sample: (1, 2, 2), result 1 ===> p0 = 0.008181, p1 = 0.187153
sample: (1, 3, 1), result 1 ===> p0 = 0.000568, p1 = 0.008020
sample: (0, 3, 2), result 1 ===> p0 = 0.000568, p1 = 0.041759
sample: (0, 1, 2), result 0 ===> p0 = 0.031035, p1 = 0.041759

貌似最后一个样本预测结果错误,正确率90%。
有一个疑问:所有分类为C的样本组成的集合为Dc,Dc中的每个特征相互独立且符合正态分布。以特征二(学历)为例,特征的取值为“1-本科 2-硕士 3-博士”。如果将特征取值改为“11-本科 21-硕士 31-博士”,得到的计算结果可能会不同。也就是说,不同的特征表示方法,虽然含义相同,但是概率计算结果可能不同。
这个问题想明白了,正态分布适用于连续特征变量的概率值计算,离散特征不能使用正态分布,可以统计频率作为概率。
上例中的特征都是离散变量,不能使用正态分布来模拟。上例使用了正态分布来计算条件概率是不合理的,不过代码演示了正态分布计算条件概率的方法,是可以参考的。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,509评论 6 504
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,806评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,875评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,441评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,488评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,365评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,190评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,062评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,500评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,706评论 3 335
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,834评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,559评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,167评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,779评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,912评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,958评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,779评论 2 354

推荐阅读更多精彩内容

  • 【博客的主要内容主要是自己的学习笔记,并结合个人的理解,供各位在学习过程中参考,若有疑问,欢迎提出;若有侵权,请告...
    Paullu阅读 2,253评论 0 11
  • 积跬步以致千里,积怠惰以致深渊 注:本篇文章在整理时主要参考了 周志华 的《机器学习》。 主要内容 通过某对象的先...
    指尖上的魔术师阅读 1,164评论 0 2
  • 以西瓜书为主线,以其他书籍作为参考进行补充,例如《统计学习方法》,《PRML》等 第一章 绪论 1.2 基本术语 ...
    danielAck阅读 4,517评论 0 6
  • 早期的林品如是一个柔弱,善良,贤惠的家庭主妇。在婆婆面前事事忍让,胆小懦弱,因婚后未能替洪家添丁,屡遭婆婆刃难责怪...
    凇凇的妈妈阅读 489评论 3 3
  • 我会做什么?给孩子讲个故事,亲亲宝贝,搂在怀里睡个午觉,领着宝到阳光下,看看树的影子,风的温柔,回来后吃一碗热汤面...
    元宝家澳洲购2号阅读 170评论 0 0