费希尔判别具体思想
费希尔判别的基本思想就是降维,用少数几个费希尔判别函数代替P个原始变量。各判别函数都具有单位方差,且彼此不相关,但各判别函数的方向并不正交,而作图时仍将它们化成直角坐标系。从降维后的图形上观测各组之间的分离状况是费希尔判别的最重要应用,为作图的需要,通常判别取判别函数个数r=2或3
判别分析和假设检验的区别
判别分析中各组的地位及各种误判的后果运行看作是相同的,而在假设检验中,两个假设的地位及犯两类错误的后果一般是不同的,通常将犯第一类错误的后果看的更严重一些。再者,假设检验通常只有两个可能结果,而判别分析的结果完全不局限于两个
聚类分析的目的
聚类分析的目的是把分类对象按一定规则分成若干类,这些类不是事先给定的,而是根据数据的特征确定的,对类的数目和类的结构不必做任何假定。聚类分析常常用来探寻“自然的”或“实际的”分类,并且这样的分类应是对所研究的问题有意义的
聚类分析能够用来概括数据
马氏距离定义注意事项###
聚类过程中的类一直变化着,这就使得类内的样本协方差矩阵难以确定
聚类分析,明考夫斯基距离的定义、使用时注意事项
明氏距离有三种特殊形式:
q=1——绝对值距离——对异常值不太敏感
q=2——欧氏距离——对异常值比较敏感
q=无穷——切比雪夫距离
q越大,差值大的变量在距离计算中所起到的作用就越大,从而对异常值也越敏感当各变量的单位不同或变异性相差很大时,不应直接采用明氏距离,而应先对各变量的数据做标准化处理,然后用标准化后的数据计算距离
系统聚类法和动态聚类法的区别
用系统聚类法聚类,一旦样品并入了某类将不会再分开,而动态聚类法允许样品从一个类移动到另一个类中。此外,在计算机的使用上,系统聚类法应计算量大较受样品数目n的限制,而动态聚类法可以处理大量数据,K均值法最常用
什么叫主成分分析,选择主成分分析有什么要求
主成分分析是通过降维技术把多个变量化为少数几个主成分的统计方法。这些主成分能够反映原始变量的绝大部分信息,它们通常互不重叠,也就是要求它们互不相关
不适合从协方差矩阵出发求主成分分析的例子和原因
- 两种情况
一、各变量的单位不全相同,此时对同样的变量使用不同的单位其主成分分析的结果一般是不一样的,甚至差异甚大。这样作出
的分析通常没有意义
二、各变量的单位虽相同,但其变量方差的差异交大,以致主成分分析的结果过于照顾方差大的变量,二方差小的变量几乎被忽
略了 - 解决方法:对原始变量标准化处理,然后从标准化变量的协方差矩阵出发求主成分
因子分析与主成分分析有哪些区别
- 主成分涉及的只是一般的变量变换,它不能作为一个模型来描述,本质上几乎不需要任何假定;而因子分析需要构造一个因子模型,并伴有几个关键性的假定
- 主成分是原始变量的线性组合;而在因子分析中,原始变量是因子的线性组合
- 主成分分析中强调的是用少数几个主成分解释总方差;因子分析中强调的是用少数几个因子分析去描述协方差或者相关关系
- 主成分的解是唯一的;因子的解可以有很多,因此更容易解释
- 主成分不会因为提取个数的改变而发生变化,但因子往往会随模型中因子个数的不同而变化
正交因子模型中常用的参数估计方法
正交因子模型中常用的参数估计方法:主成分法、主因子法、极大似然法
对主成分解和主因子解,当因子数m增加时,原来因子的估计载荷并不变,以致原来因子对x的总方差贡献也不变,但这一点对极大似然解并不成立。然而无论何种解,对不同因子数的选取,经旋转后的因子一般是不同的