机器学习笔记：朴素贝叶斯分类器（二）

在前一篇文章中，我们通过计算频率的方式来计算条件概率。对于未观测到的样本，其条件概率为0。这种假设看起来不太合理。现在我们要采用另一种方式来计算条件概率。

我们假设特征之间相互独立，并服从正态分布。所有分类为C的样本的集合为Dc，集合中第i个特征服从正态分布：Xi ~ N(0，1)。通过计算Dc中所有特征的条件概率，最终得到单个样本属于分类C的条件概率，从而达到分类的目的。

计算过程如下:

贝叶斯分类.png

以上文的数据来演示贝叶斯分类算法：

import math

#是否985（0-否  1-是）  学历（1-本科  2-硕士  3-博士）   技能（1-C++  2-JAVA）   是否录用(0-否  1-是)
samples = [[1, 1, 1, 0],
           [1, 1, 2, 1],
           [0, 2, 2, 1],
           [0, 2, 1, 0],
           [1, 1, 2, 1],
           [0, 2, 1, 0],
           [1, 2, 2, 1],
           [1, 3, 1, 1],
           [0, 3, 2, 1],
           [0, 1, 2, 0]]

#分布参数
feature_cnt = 3
c_f_miu = {}
c_f_sigma = {}

def get_samples_by_class(c_value):
    ret_samples = []
    for sample in samples:
        c_tmp = sample[feature_cnt]
        if c_value == c_tmp:
            ret_samples.append(sample)
    return ret_samples

#计算类别C（不录用、录用）条件下，每个特征的正态分布参数(miu_c_i, sigma_c_i)
def calc_miu_sigma_for_C_F(c_samples, f_idx):
    sample_cnt = len(c_samples)
    if sample_cnt == 0:
        return

    f_value_sum = 0
    for sample in c_samples:
        f_value_sum += sample[f_idx]
    miu = f_value_sum / sample_cnt

    variance = 0
    for sample in c_samples:
        variance += ((sample[f_idx] - miu) * (sample[f_idx] - miu))
    sigma = variance / sample_cnt

    c_value = c_samples[0][feature_cnt]
    key_str = 'c{c_val}_f{f_idx_val}'.format(c_val=c_value, f_idx_val=f_idx)
    c_f_miu[key_str] = miu
    c_f_sigma[key_str] = sigma

#计算一个分类、一个特征的条件概率
def calc_P_C_F(c_value, f_idx, f_value):
    key_str = 'c{c_val}_f{f_idx_val}'.format(c_val=c_value, f_idx_val=f_idx)
    miu = c_f_miu[key_str]
    sigma = c_f_sigma[key_str]
    p = (math.exp(-(f_value - miu) * (f_value - miu) / (2 * sigma))) / math.sqrt(math.pi * 2 * sigma)
    return p

#计算一个样本的条件概率P(C|f1,f2,f3)
def calc_P_C_sample(c_value, p_c_val, f1_val, f2_val, f3_val):
    p1 = calc_P_C_F(c_value, 0, f1_val)
    p2 = calc_P_C_F(c_value, 1, f2_val)
    p3 = calc_P_C_F(c_value, 2, f3_val)
    p_c_sample = p_c_val * p1 * p2 * p3
    return p_c_sample

if __name__ == "__main__":
    samples0 = get_samples_by_class(0)
    samples1 = get_samples_by_class(1)
    calc_miu_sigma_for_C_F(samples0, 0)
    calc_miu_sigma_for_C_F(samples0, 1)
    calc_miu_sigma_for_C_F(samples0, 2)
    calc_miu_sigma_for_C_F(samples1, 0)
    calc_miu_sigma_for_C_F(samples1, 1)
    calc_miu_sigma_for_C_F(samples1, 2)

    #计算类别的概率P_C
    cnt = len(samples)
    p_c0 = len(samples0) / cnt
    p_c1 = len(samples1) / cnt
    #计算样本的条件概率
    for sample in samples:
        p0 = calc_P_C_sample(0, p_c0, sample[0], sample[1], sample[2])
        p1 = calc_P_C_sample(1, p_c1, sample[0], sample[1], sample[2])
        print('sample: (%d, %d, %d), result %d ===> p0 = %f, p1 = %f' %(sample[0], sample[1], sample[2], sample[3], p0, p1))

所有样本的预测结果如下：

sample: (1, 1, 1), result 0 ===> p0 = 0.031035, p1 = 0.008020
sample: (1, 1, 2), result 1 ===> p0 = 0.008181, p1 = 0.088405
sample: (0, 2, 2), result 1 ===> p0 = 0.031035, p1 = 0.088405
sample: (0, 2, 1), result 0 ===> p0 = 0.117735, p1 = 0.008020
sample: (1, 1, 2), result 1 ===> p0 = 0.008181, p1 = 0.088405
sample: (0, 2, 1), result 0 ===> p0 = 0.117735, p1 = 0.008020
sample: (1, 2, 2), result 1 ===> p0 = 0.008181, p1 = 0.187153
sample: (1, 3, 1), result 1 ===> p0 = 0.000568, p1 = 0.008020
sample: (0, 3, 2), result 1 ===> p0 = 0.000568, p1 = 0.041759
sample: (0, 1, 2), result 0 ===> p0 = 0.031035, p1 = 0.041759

貌似最后一个样本预测结果错误，正确率90%。
有一个疑问：所有分类为C的样本组成的集合为Dc，Dc中的每个特征相互独立且符合正态分布。以特征二（学历）为例，特征的取值为“1-本科 2-硕士 3-博士”。如果将特征取值改为“11-本科 21-硕士 31-博士”，得到的计算结果可能会不同。也就是说，不同的特征表示方法，虽然含义相同，但是概率计算结果可能不同。
这个问题想明白了，正态分布适用于连续特征变量的概率值计算，离散特征不能使用正态分布，可以统计频率作为概率。
上例中的特征都是离散变量，不能使用正态分布来模拟。上例使用了正态分布来计算条件概率是不合理的，不过代码演示了正态分布计算条件概率的方法，是可以参考的。

机器学习笔记：朴素贝叶斯分类器（二）

机器学习笔记：朴素贝叶斯分类器（二）

相关阅读更多精彩内容

友情链接更多精彩内容