朴素贝叶斯

1.思路:
给定训练集后,假设特征之间都是互相独立的。
(1)计算输入输出的联合概率分布
(2)对于给定的输入x,利用贝叶斯原理求出后验概率最大的输出y

2.优缺点:
优点:
(1)学习和预测的效率高,模型简单,且易于实现;在数据较少的情况下仍然有效,可以处理多分类问题;
(2)对缺失数据不敏感。
缺点:
(1)分类效果不一定很高,特征独立性假设会是朴素贝叶斯变得简单,特征独立在实际应用中往往不成立,所以会牺牲一定的分类准确率,在属性个数多并且相关性强的时候,朴素贝叶斯的分类效率不如树模型;
(2)需要已知先验概率

3.原理:
对于输入空间x为n维向量的集合:
![][01]
[01]:http://latex.codecogs.com/png.latex?x:(x_1,x_2,x_3,...,x_n)
输出空间c的标签集合为:
![][02]
[02]:http://latex.codecogs.com/png.latex?c:(c_1,c_2,c_3,...,c_n)

假设X是定义在输入空间上的随机变量,C是定义在输出空间上的随机变量,则X和Y的联合概率分布为:
![][03]
[03]:http://latex.codecogs.com/png.latex?P(X,C)
朴素贝叶斯法通过训练数据集学习联合概率分布,学习联合概率分布主要是得到先验概率和条件概率分布。
先验概率分布:
![][04]
[04]:http://latex.codecogs.com/png.latex?P(Y=c_k),k=0,1,2...
条件分布概率为:
![][05]
[05]:http://latex.codecogs.com/png.latex?P(X=x|Y=c_k)
即可得后验概率分布,如下图所示:

Bayes_rule.png

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容