基本原理
假设有N种可能分类的标记,即y={c1,c2,...,cN},λij表示真实分类为j错分为i类产生的损失。基于后验概率p(ci|x)可获得将样本x分类为ci所产生的期望损失,即在样本x上的“条件风险”:
希望能找到一个判别准则h,能使的总体风险最小化:
若判定准则h能使得样本x的条件风险最小化,则总体风险也将被最小化。这就产生贝叶斯判别准则:为最小化总体风险R(h),只需在每个样本x选择那个使条件风险R(ci|x)最小化的那个类。即:
h*(x)称为贝叶斯最优分类器,与之对应的总体风险R(h*)称为贝叶斯风险。
如果目标是最小目标分类错误率,则误判λij可写为:
此时条件风险为:
所以最小化分类错误的贝叶斯最优分类器为:
即对每个样本x,选择能使后验概率最大的类别。
基于贝叶斯定理,后验概率p(c|x)可以由下面公式获得:
p(c)是累“先验概率”,根据大数定理,可以通过各类样本出现的频率估计;p(x)与类别无关。所以关键是要确定类条件概率p(x|c)。
朴素贝叶斯分类器
估计条件概率p(x|c)的最大困难在于,类条件概率是所有属性的联合概率,从有限的样本很难估计。为避开这个问题,朴素贝叶斯分类器采用了“属性独立性假设”。即:
由于对所有类别来说p(x)是一样的,因此朴素贝叶斯分类器的表达式为:
值得注意的是,当某个属性值未出现,这个时候p(xi|c)等于0。这样会将其他出现的属性值抹去,这样是不合理的。为了避免这种情况,常用“拉普拉斯修正”。具体来说,令N表示训练集D中的类别数,Ni表示第i个属性可能的取值数,则修正为:
未完待续