本质属于一种数据降维算法
将二维数据转化为一维
目标
:只保留一个轴时,信息保留最多(数据分布分散)
数据分布最分散的方向(方差最大),做主成分(坐标轴)
首先要去中心化(把坐标原点放在数据中心),再找坐标系。
线性变换:拉伸(方差最大的方向)
旋转决定了方差最大的方向角度
白数据→拉伸→旋转→处理后的数据
R是协方差矩阵的特征向量
处理后数据的协方差
L是新数据的协方差
PCA的降维思想,可以帮助我们把多个指标变换成少数综合指标的多元统计方法。
视频讲解:https://www.bilibili.com/video/BV1iU4y1M7t9?p=37
1. 主成分分析的起源
什么是协方差
代入计算
因此,主成分与原始变量之间的关系:
- 主成分是原始变量的线性组合;
- 主成分的数量相对于原始数量更少;
- 主成分保留了原始数量的大部分信息。
image.png
2.分析步骤
(1)标准化:消除量纲,期望=0,方差=1
原始值减去每一列均值再除以标准差
(2)将主成分写为变量集合的等式
主成分表达式
前后方差之和都等于p
因为线性无关,除对角阵以外协方差都为0
(3)计算特征值和正交向量
3. 应用步骤
spsspro步骤
视频讲解:https://www.bilibili.com/video/BV1Ua411e7me/
注意事项
- 主成分要求变量之间的共线性或相关关系比较强,否则不能通过KMO检验和Bartlett
球形检验;
2.主成分分析倾向于降维,从而达到简化系统结构,抓住问题实质的目的。(可侧重于方差解释表格、碎石图、因子权重分析) - 主成分分析时通常需要综合自己的专业知识,以及软件结果进行综合判断,即使是特征根值小于1,也一样可以提取主成分
4.KMO值为null不存在可能导致的原因为:1)样本量过少容易导致相关系数过高,一般希望分析样本量大于5倍分析项个数;(2)各个分析项之间的相关关系过高或过
低。