概率分类法
基本问题:
- 假设有两类和
- 假设某样本,要么,要么
求解:
与,且
分类准则为:
由贝叶斯公式可知:
分类准则变成:
其中,和叫做的先验概率;和叫做在上的条件概率;和叫做在上的后验概率。
注:应当更加关注先验概率。具体表现在:训练样本类别和真实场景中的样本类别比重(即类别不平衡度)应当大致相同。例如,训练人脸识别算法时,训练样本多是西方面孔,要想保证对于亚洲面孔的识别度,必须设法增加亚洲面孔所占比重。
此外,若先验概率未知,则假定所有先验概率相同。在此前提之下,分类准则为:
于是,分类问题转变为概率密度估计问题,如何估计,即给定一组,如何求。
朴素贝叶斯 (Naive Bayesian Classifier)
朴素贝叶斯法是基于贝叶斯定理和特征条件独立假设得分类方法。对于给定得训练数据集,首先基于特征条件独立假设学习输入/输出得联合概率分布;然后基于此模型,对给定得输入,利用贝叶斯定理求出后验概率最大得输出。朴素贝叶斯法实现简单,学习与预测得效率都很高,是一个常用得方法。
基本方法
设输入空间为维向量的集合,输出空间为类标记集合。输入为特征向量,输出为类标记(class label)。是定义在输入空间的随机向量,是定义在输出空间上的随机变量。是和的联合概率分布。训练样本集
由独立同分布产生。具体学习先验概率分布和条件概率分布。
先验概率分布:
条件概率分布:
朴素贝叶斯法对条件概率做了条件独立性的假设。这是一个较强的假设,朴素贝叶斯法也由此得名。具体假设如下:
朴素贝叶斯法实际上学习到生成数据的机制,属于生成模型。条件独立假设等于是说用于分类的特征在类确定的条件下都是条件独立的,这会大大降低朴素贝叶斯法的难度,但有时也会牺牲一定的分类准确率。
朴素贝叶斯法分类时,对给定的输入,通过学习到的模型计算后验概率分布,将后验概率最大的类作为的类输出。后验概率根据贝叶斯定理可得:
将上述两个式子结合,可以得到朴素贝叶斯分类的基本公式:
所以,朴素贝叶斯分类器可表示为:
极大似然估计
概率模型的训练过程就是参数估计(parameter estimation)过程。对于参数估计,频率注意学派认为参数虽然未知,但却是客观存在的固定值,因此,可通过优化似然函数等准则来确定参数值;贝叶斯学派则认为参数是未观察到的随机变量,其本身也可有分布,因此,可假定参数服从一个先验分布,然后基于观测到的数据来计算参数的后验分布。源自频率主义学派的极大似然估计(Maximum Likelihood Estimation,简称MLE),根据数据采样来估计概率分布的经典方法。
在朴素贝叶斯法中,学习意味着估计和,可以应用极大似然估计法估计相应的概率。先验概率的极大似然估计是
设第个特征可能取值的集合为,条件概率的极大似然估计是
式中,是第个样本的第个特征;是第个特征可能取得第个值;为指示函数。
朴素贝叶斯算法流程:
输入:训练数据,其中:,是第个样本的第个特征,,是第个特征可能取的第个值,,,
实例;
输出:实例的分类
计算先验概率及条件概率
对于给定的实例,计算
确定实例的类
实际应用:垃圾邮件分类
输入:一个文件,其中,表示组成文本的单词。
输出:,或者
训练样本:
学习目标:和
其中,由独立性假设推出。
先验概率为:
判别准则: