Naive Bayes补充

image.png

特征F1出现时,样本被分为C类的概率。
先验概率:P(C) 从训练样本计算C类所占的比例
证据:P(F1) 从训练样本集中统计出现F1样本的概率
似然估计:已知样本集为C类,求出出现特征F1的概率
对于多个特征,贝叶斯公式:

image.png

此时,求似然值就比较困难。
引入朴素贝叶斯概念,我们假设多个特征F1,F2..Fn相互独立,则有:
分子:P(C)P(F1|C)P(F2|C)...P(Fn|C)
对于贝叶斯分类来说,P(Ci|F1..Fn)与P(Cj|F1...Fn)比较大小,分母一样,所以P(F1...Fn)不用计算。
当计算P(Fk|Ci)时,如果Fk在训练集中没有出现过,则P(Fk|Ci)=0,这是不允许的,所以引入拉普拉斯平滑,计算P(Fk|Ci)时,分子+1,分母加上n(n为Fi的个数)。
平滑技术:增加为出现词的概率,减少已出现词的概率。
参考文章:

http://m.blog.csdn.net/lsldd/article/details/41542107

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容