PCA(Principal Component Analgesic)
降维、数据压缩、可做数据可视化
降维分析:找到数据最重要的方向(方差最大的方向),第一个主成分就是从数据差异性最大(方差最大)的方向提取出来的,第二个主成分则来自于数据差异性次大的方向,且要与主成分方向正交
PCA不是线性回归
PCA算法流程:
1、数据预处理:中心化
2、求样本的协方差矩阵
3、对协方差矩阵做特征值分解
4、选出最大的k个特征值对应的k个特征向量
5、将原始数据投影到选取的特征向量上
6、输出投影后的数据集
方差:用以描述一个数据集的离散程度
协方差:描述两个数据的相关性,接近1就是正相关,接近-1就是负相关,接近0就是不相关
协方差只能处理二维问题,维数若更多,需要计算多个协方差,可以使用矩阵来组织这些数据。
协方差矩阵是一个对称的矩阵,而且对角线是各个维度的方差
eg:
协方差矩阵:
n个特征,m个样本,n行m列
n*m乘m*n ——》n*n
通过数据集的协方差矩阵及其特征值分析,我们可以得到协方差矩阵的特征向量与特征值。我们需要保留k个维度的特征就选取最大的k个特征值。