1 PCA步骤
PCA指的是给定一组数据,对数据进行降维
它分5步:
- 计算特征的协方差矩阵
- 计算协方差矩阵的特征值
- 计算特征值对应的特征向量
- 选取最大的k个特征值(k是你要降到的维度)对应的特征向量组成一个新矩阵
- 数据矩阵先进行中心化(center)再乘特征向量矩阵,构成一个新矩阵,即为降维后的数据
2 一个例子
假设我们现在拿到的数据一共有3个数据,分别是,
,
, 其中每个数据有两个特征:
那么,我们的特征可以构成一个新矩阵:
2.1 计算协方差矩阵
我们首先计算协方差矩阵:
其中,n是样本个数,可得:
2.2 计算特征值
接下来,计算特征向量, 令:
其中是单位阵,则有:
解得:
2.3 计算特征向量
求特征向量,利用公式:
解得:
2.4 选取k个特征向量
这里,我们只能选1个特征向量了,因为数据本来是2维的,只能降到1维,所以就选择
2.5 计算PCA后的数据
先对原始数据进行中心化,每个元素都减去它本列的均值,可得(和原来一样,因为每一列均值是1)
那么,PCA后的数据: