GDA(高斯判别分析模型)
GDA的全称是Gaussian Discriminant Analysis model,中文名称是高斯判别分析模型,是生成学习模型的典型代表,用于研究分类问题。在该模型中,样本类型服从多项式分布,而每个样本取值都服从Gauss分布。
对于二分类问题,样本类型有两种情况,服从Bernoulli分布,整个模型建构为: 待估计的模型参数即,那么为什么通常这里只选取一个而不是呢?仅仅是为了选择一个更简单的模型来计算?
其实原因很简单,我们选择同一个协方差矩阵完全是因为每个高斯分布的协方差矩阵本来就是相同的。注意到维随机变量的协方差矩阵(作为协方差的自然推广)的定义: 因此协方差矩阵只依赖于模型中已选定的全部特征(这些特征表达为有值向量随机变量)。既然包含了全部所选特征,自然是同一个。
真的没有不同协方差矩阵的模型?
其实并不是这样的,在混合高斯模型中,协方差矩阵事实上是不同的,因为这时假设了两类别的特征满足不同的分布形式。
所以真正的原因是,当样本不充分时,使用不同协方差矩阵会导致算法稳定性不够;过少的样本甚至导致协方差矩阵不可逆,那么GDA算法就没法进行。并且当将GDA模型作为线性分类器时,是要求协方差矩阵相同的,否则分界面方程是非线性的。