朴素贝叶斯法
标签: 统计学习
目录
[TOC]
基本方法
朴素贝叶斯法通过训练数据集学习联合概率分布P(X,Y)。主要由一下先验概率分布与条件概率分布 学习,
先验概率分布:
条件概率分布:
朴素贝叶斯法对条件概率分布作了条件独立性假设,也因此得名。条件独立性假设是指:
条件独立假设等价于表明在类确定的条件下,用于分类的各特征都是条件独立的
朴素贝叶斯法实际学习到了生成数据的机制,属于生成模型
模型推导过程:后验概率依据贝叶斯定理有
代入条件概率分布,有
获得模型,有
由于分母对于所有输出都是一样的,可以略去,有
后验概率最大化等价于0-1损失函数时的期望风险最小化
参数估计
极大似然估计
先验概率的极大似然估计是(i为样本,k为输出类别)
条件概率的极大似然估计是(j为特征,l为可能的取值)
贝叶斯估计
使用贝叶斯估计可能会出现估计值为0,影响后验概率的计算,使结果产生偏差。处理方法是在各个取值频数上添加一个正数项λ
先验概率
条件概率
当λ=0时,就是极大似然估计;当λ=1时,称为拉普拉斯平滑