一、引言
感知器与贝叶斯分类器之间有一定的联系。在高斯环境下,贝叶斯分类器退化成线性分类器,这一节我们研究这种联系,并深入研究感知器的运行。首先复习下贝叶斯分类器。
二、贝叶斯分类器
在贝叶斯分类器和贝叶斯假设检验中,我们最小化平均风险,记为R。对二分类问题定义的平均风险为:
这里各项的定义如下:
H:训练集空间,
:类i
:观察向量取自子空间的先验概率
:当真实类为,决策类由子空间代表为的代价
:随机向量X的条件概率密度函数,假设观察向量x取自子空间
根据定义,我们很容易知道等式右边的头两项代表正确决策,后两项代表错误决策。每个决策通过两个因子乘积加权:作出决策的代价和先验概率。我们的目的就是最小化平均风险。
根据积分规则,我们可以改写上述规则,其等价式子为:
由概率论的知识可知:
因此,可以将等价式简化为:
等式右边头两项为固定代价,那么想要最小化平均风险,只需要最小化第三项即可。从积分式子可以看出,当被积函数为负数时,代价减少,它对代价做了一个负贡献,我们将使得被积函数为负数的观察向量x都归于子空间,相反,同理,不再赘述。当然使得被积函数为0的点可以随机分配。在此基础上,我们可以导出贝叶斯分类器公式:
假如条件:满足,那么我们将观察向量分配给类1,否则分配给类2。
为了简化公式,我们定义:
,
熟悉概率论的同学一看就明白,就是似然比,这里的称为阈值。在概率论中,我们通常用对数似然比代替似然比,因为方便计算。
到此为止,我们已经讲述完了贝叶斯分类器的通解,下面我们单独讨论在高斯分布下的贝叶斯分类器。
三、高斯分布下的贝叶斯分类器
我们考虑高斯分布下二分类的问题,假设随机向量,那么该随机向量的均值仅仅依赖于X是属于类1还是属于类2。也就是说:
:,
:,
其中的C代表协方差矩阵,即:
如果协方差矩阵为非对角矩阵,那么我们可以说样本之间是相关的,我们可以假设协方差矩阵是非奇异矩阵,那么在这个背景下,我们可以将X的条件概率密度函数变为多变量高斯分布:
m:观察向量X的维数
进一步假设:
1、
2、
好了,到了这里,我们可以简化我们的对数似然比:
对数似然比推导略有复杂,如果不清楚怎么推的小伙伴请私信我。
对阈值取对数得:
到了这里,我们不妨令:
即:
OK,相信小伙伴们都看出来了,当前的贝叶斯分类器在高斯环境下已经退化成了线性分类器。
四、高斯环境下贝叶斯分类器与感知器的区别
虽然在高斯环境下,贝叶斯分类器与感知器都是线性分类器,但是两者还是有细微而重要的差别,我们来看看:
1、感知器运行的前提是线性可分,而贝叶斯分类器是不需要的,为啥呢?因为贝叶斯分类器最小化分类误差的概率,按概率说话,与是否数据线性可分没有关系。
2、感知器收敛算法是一种非参数机器学习算法,而贝叶斯分类器是一种有参数机器学习算法。区别就在于你是否有一个最小化的目标,感知器没有最小化的目标,它只是通过关注误差来运行。
五、小结
好了,到此为止,我们比较了感知器与贝叶斯分类器,实践是检验真理的唯一标准,为了更深层次的理解贝叶斯分类器与感知器,建议你用python去实现它们的算法。下一节我们将利用双月模型,通过计算机实验来探究感知器的更深层次的东西。