参考链接:贝叶斯网络、拉普拉斯平滑_xueyingxue001的专栏-CSDN博客_拉普拉斯平滑
拉普拉斯平滑:防止由于某一个条件概率为 0,导致分类概率为 0 的不合理情形
分子都设为1,分母为2
理由:1、这是一个二分类,所以分母为2
2、 下面出现的符号还是以上面垃圾邮件的例子为准。 p(x1| c1)是指的:在垃圾邮件c1 这个类别中,单词x1出现的概率。(x1 是待考察的邮件中的某个单词) 定义符号: n1 :在所有垃圾邮件中单词x1 出现的次数。如果x1 没有出现过,则n1 = 0。 n:属于c1 类的所有文档的出现过的单词总数目。 得到公式 p(x1|c1)= n1 / n 而拉普拉斯平滑就是将上式修改为: p(x1|c1)= (n1 + 1) / (n + N) p(x2|c1)= (n2 + 1) / (n + N) ...... 其中,N是所有单词的数目。修正分母是为了保证概率和为1。 举个例子:中国男足vs韩国男足的前5场的比分是0:5,那预测第六场中国队胜出的概率是多少时难道给0/5,这绝壁不行。所以分子分母都加1,变成1/6。