1. 判别分析的基本思想
a. 目的:识别一个个体所属类别
b. 适用:被解释对象是非度量变量(nonmetric),解释变量是度量变量;分组类型2组以上,每组样品>1。
c. 应用:归类、预测
d. 判别分析与聚类分析:
i. 聚类分析前,我们并不知道应该分几类,分类工作;
ii. 判别分析时,样品的分类已事先确定,需要利用训练样 本建立判别准则,对新样品所属类别进行判定,归类工作。
2. 判别分析的三大假设:
a. 假设1:每一个判别变量(解释变量)不能是其他判别变量的线性组合。避免多重共线性问题。
b. 假设2:如果采用线性判别函数,还要求各组变量协方差矩阵相等----线性判别函数使用起来最方便、在实际 中使用最广。
c. 假设3:各判别变量遵从多元正态分布,可精确的计算 显著性检验值和归属概率,不然计算概率不准。
- 核心思想:样品和哪个总体距离最近,就判它属哪个总体。
3. 距离判别
两总体:
协方差相等/协方差不等
多总体:
协方差相等/协方差不等
3.2距离判别的小结:
优点:
i. 距离判别只要求知道总体的特征量(即参数)---均值和协差阵,不涉及总体的分布类型.
ii. 当参数未知时,就用样本均值和 样本协差阵来估计.
iii. 距离判别方法简单,结论明确,是很实用的方法.
ii. 缺点
i. 该判别法与各总体出现的机会大小(先验概率)完全无关
ii. 判别方法没有考虑错判造成的损失,这是不合理的.
4. 贝叶斯判别:
v. 贝叶斯判别的基本思想
i. 假定对研究对象已经有了一定的认识,这种认识可以用先验概率来描述,当取得样本后,就可以利用样本来修正已有的 先验概率分布,得到后验概率分布,再通过后验概率分布进 行各种统计推断。
ii. 贝叶斯判别属于概率判别法。
iii. 判别准则:
i. 个体归属某类的概率(后验概率)最大
ii. 错判总平均损失最小为标准。
vi. 贝叶斯判别的后验概率最大
贝叶斯小结
i. 贝叶斯(Bayes)判别要变量服从正态分布类型。
ii. 、贝叶斯(Bayes)判别的判别准则是以个体归属某类的概率最大或错判总平均损失最小为标准。弥补了 距离判别和费歇(Fisher)判别的缺点。
5. 费歇(Fisher)判别
5.1费歇(Fisher)判别核心思想:
i. 通过多维数据投影到一维度直线上,将k组m维数据投影到 某一个方向,使得投影后组与组之间尽可能地分开。而衡量组 与组之间是否分开的方法借助于一元方差分析的思想
ii. 费歇(Fisher)判别是一种确定性判别。
5.2费歇(Fisher)判别小结:
i. 费歇(Fisher)判别对判别变量的分布类型并无要求, 而贝叶斯(Bayes)判别要变量服从正态分布类型。因此, Fisher类判别较Bayes类判别简单一些。
ii. 当两个总体时,若它们的协方差矩阵相同,则距离判 别和Fisher判别等价。 当变量服从正态分布时,它们还 和Bayes判别等价。
iii. 与距离判别一样,费歇判别与各总体出现的机会大小 (先验概率)完全无关;也没有考虑错判造成的损失。
6. 逐步判别
6.1背景与意义
i. 目的:
如何从m个变量中挑选出对区分k个总体有显 著判别能力的变量,来建立判别函数,用以判别归类。
ii. 常见问题:
1.忽略主要的指标;
- 引入太多 的指标,计算量大又干扰分析。
iii. 定义:
凡是具有筛选变量能力的判别方法统称为逐步判别法。
6.2. 主要思想:
i. 保留判别能力显著的变量
ii. 剔除判别能力不显著的变量
6.3. 具体步骤:
i. 逐步筛选变量
i. 根据各变量对区分k个总体的判别能力的大小,利用向 前选入、向后剔除或逐步筛选的方法来选择区分k个总体的 最佳变量子集。
ii. 判别归类
i. 对已选出变量子集,使用三大判别方法(距离判别、 Bayes判别、Fisher判别)对样品进行判别归类。