生成学习算法&GDA

判别学习方法
        在解空间中寻找一条直线,从而把两种类别的样例分开,对于新的样例,只要判断在直线的哪一侧即可;这种直接对问题求解的方法可以称为判别学习方法
生成学习算法
        先对两个类别分别进行建模,然后用新的样例去匹配两个模板,匹配度较高的作为新样例的类别。

        也就是说,判别学习方法是直接对p(y|x)进行建模或者直接学习输入空间到输出空间的映射关系,其中,x是某类样例的特征,y是某类样例的分类标签。
        而生成学习算法是对p(x|y)(条件概率)和p(y)(先验概率)进行建模,然后按照贝叶斯法则求出后验概率p(y|x)
        p(y\vert x)=\frac{p(x\vert y)p(y)}{p({x})}
使得后验概率最大的类别y即是新样例的预测分类
        


高斯判别分析(GDA)

高斯判别分析是一种生成学习算法,在该模型中,我们假设p(x|y)服从混合正态分布。通过训练确定参数值,新样本通过已建立的模型计算出属于不同类别的概率,我们选取概率最大的即为样本所属的类。

混合正态分布

混合正态分布也叫做混合高斯分布,是正态分布在多维变量下的扩展。


当使用GDA模型时,p(x|y)属于高斯分布,计算p(y|x)时,几乎能得到和logistic回归中使用的sigmiod函数一样的函数,但实际上还是存在本质区别。

实际上,可以证明,不仅仅当先验概率分布服从混合高斯分布时可以推导出逻辑回归模型,当先验概率分布属于指数分布族中的任何一个分布(比如泊松分布)时都可以推导出逻辑回归模型;但,反之则不成立, 如果可表示成logistic回归函数形式,并不代表 p(x|y) 服从指数分布族分布。 这也说明了逻辑回归模型在建模上的鲁棒性。 当然,如果混合高斯模型的假设是正确的,那么,GDA具有更高的拟合度。基于这些原因,在实践中使用logistic回归比使用GDA更普遍。

目前,我们得到了推导逻辑回归模型的两种方法:

(1)通过指数分布族来推导。

(2)通过生成学习假设先验概率分布的方式进行推导。

那么如何选择GDA与逻辑回归模型呢?

由上面的分析可以知道,GDA比逻辑回归有更多的前置假设。当数据服从或大致服从正态分布时, GDA会具有更高的拟合度 ,因为GDA利用了更多的信息构建模型。但是当数据不服从正态分布时,那么逻辑回归更有效,因为它做出更少的假设,构建的模型更加强壮,更加具有鲁棒性。生成学习还有另外的一个好处,就是可以使用比判别学习模型使用更少的数据构建出强壮的模型。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容