Naive Bayes是一种简单但很重要的概率模型,是一种简单的多类分割算法。
- 定义:
- 假设所有的特征之间是相互独立的。即每个独立变量x的条件概率p(x|y)是相互独立的。
-
首先计算某个类中每个特征的条件概率p(x|y), 再应用bayes理论来计算
- Naive Bayes的特点
- 基于贝叶斯理论
- 监督学习
- 构造简单
- 与其他模型相比,训练更快
- 常作为校验模型
- Naive Bayes的应用
- 文件分类:技术、政治、体育
- 垃圾邮件
- 人脸检测
-
Bayes理论
-
对应的Naive Bayes方程变为:
避免0频问题
- 定义:训练数据中,类里没有任何变量,任何变量也不能归于某类,那么这种情况的概率就为0。这是有问题的,因为在naive bayes时,相乘后,所有信息都会归0。
- 解法:Laplacian Correction(就是p(x|y)中的x+1,这样p(x|y)就不会为0)