朴素贝叶斯的改进

参考链接:贝叶斯网络、拉普拉斯平滑_xueyingxue001的专栏-CSDN博客_拉普拉斯平滑

拉普拉斯平滑:防止由于某一个条件概率为 0,导致分类概率为 0 的不合理情形

分子都设为1,分母为2

理由:1、这是一个二分类,所以分母为2

2、      下面出现的符号还是以上面垃圾邮件的例子为准。       p(x1| c1)是指的:在垃圾邮件c1 这个类别中,单词x1出现的概率。(x1 是待考察的邮件中的某个单词)           定义符号:                    n1 :在所有垃圾邮件中单词x1 出现的次数。如果x1 没有出现过,则n1 = 0。                    n:属于c1 类的所有文档的出现过的单词总数目。           得到公式                    p(x1|c1)= n1 / n           而拉普拉斯平滑就是将上式修改为:                    p(x1|c1)= (n1 + 1) / (n + N)                    p(x2|c1)= (n2 + 1) / (n + N)                    ......           其中,N是所有单词的数目。修正分母是为了保证概率和为1。       举个例子:中国男足vs韩国男足的前5场的比分是0:5,那预测第六场中国队胜出的概率是多少时难道给0/5,这绝壁不行。所以分子分母都加1,变成1/6。 

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容