主成分分析的理解

主成分分析

主成分分析PCA是将多指标重新组合成一组新的无相关的几个综合指标,是根据实际需要从中选取尽可能少的综合指标,以达到尽可能多地反应原指标信息的分析方法。由于这种方法的第一主成分在所有的原始变量中方差最大,因而综合评价函数的方差总不会超过第一主成分的方差,所以该方法有一定的缺陷,且提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),所以在变量较少时就不太适合先用主成分筛选变量,这个视数据情况而定

主成分分析实现步骤:

1、原始数据标准化,消除变量量纲不同的影响;

2、计算相关系数矩阵,计算特征值和对应的特征向量;

3、计算贡献率和累计贡献率。

疑问解答:

1.计算特征值的含义?

   PCA的本质是对角化协方差矩阵,后对一个n x n的对称协方差矩阵分解求特征值和特征向量,就会产生n个n维正交基,每个正交基对应一个特征值,吧矩阵投影在这n个基上,此时的特征值的横就表示在该基上的投影长度,特征值越大,说明矩阵对应的特征向量上的方差越大,样本点越离散,越容易区分,包含的信息量越多

2.主成分系数

  根据主成分系数判断主成分主要依赖的几个变量,根据主要依赖变量总结该主成分(综合指标)代表的性质

3.主成分得分

  主成分得分其实就是降维之后数据,可对降维之后的主成分得分进行聚类分析,得到相似的类别群体

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容