生成模型和判别模型

监督学习可分为生成方法和判别方法，所学到的模型为生成模型（generative model）和判别模型（discriminative model）

1 生成模型

1.1 定义

由数据学习联合概率密度分布P(X,Y)，然后求出条件概率分布P(Y|X)作为预测的模型

e.g. 假设给定动物的若干个特征属性，我们希望通过这些特征学习给定的一个“个体”到底是属于“大象”（y=1）还是“狗”（y=0）。我们首先观察“大象”群体，我们可以根据“大象”群体特征建立模型，然后再观察“狗”群体特征，然后再建立“狗”的模型。当给定新的未知个体时，我们将该个体分别于“大象”群体和“狗”群体模型进行比较，看这个个体更符合哪个群体模型的特征

1.2 典型模型

朴素贝叶斯、隐马尔科夫模型（HMM）等

1.3 优点和缺点

优点：

可以算出联合概率分布分布P(X,Y)，从而计算出条件概率
收敛速度比较快，即当样本数量较多时，生成模型能更快地收敛于真实模型
能够应付存在隐变量的情况，比如混合高斯模型

缺点：

需要更多的样本和更多计算
实践中多数情况下判别模型效果更好

2 判别模型

2.1 定义

由数据直接学习决策函数 Y=f(X) 或者条件概率分布 P(Y|X) 作为预测的模型。基本思想是有限样本条件下建立判别函数，不考虑样本的产生模型，直接研究预测模型

e.g. 假设给定动物的若干个特征属性，我们希望通过这些特征学习给定的一个“个体”到底是属于“大象”（y=1）还是“狗”（y=0）。如果采用判别模型的思路，如逻辑回归，我们会根据训练样本数据学习类别分界面，然后对于给定的新样本数据，我们会判断数据落在分界面的哪一侧从而来判断数据究竟是属于“大象”还是属于“狗”。在这个过程中，我们并不会关心，究竟“大象”这个群体有什么特征，“狗”这个群体究竟有什么特征

2.2 典型模型

KNN、感知机、决策树、逻辑回归、最大熵、SVM、AdaBoost和条件随机场等

2.3 优点和缺点

优点：

由于直接学习P(Y|X)或f(X)，可以对数据进行各种程度上的抽象、定义特征并使用特征，因此可以简化学习问题。即节省计算资源，需要的样本数量少于生成模型
直接面对预测，准确率往往较生成模型高
反映的是异类数据之间的差异

缺点：

收敛速度较慢
无法应付存在隐变量的情况
不能反映训练数据本身的特性

Reference

https://baike.baidu.com/item/%E5%88%A4%E5%88%AB%E6%A8%A1%E5%9E%8B/16224017?fr=aladdin
https://blog.csdn.net/zouxy09/article/details/8195017
https://blog.csdn.net/weixin_39910711/article/details/89483662
https://blog.csdn.net/Scythe666/article/details/80063694

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

生成模型和判别模型