主成分分析(PCA)
矩阵A中有100个样本数据,每个数据是二维平面上的一个点。如下图所示。求出矩阵A的特征值λ1,λ2,可以看出A矩阵其实是特征值方向上的拉伸成都,λ1>λ2,说明λ1方向上的延展要多一下,如果要压缩A矩阵,则最能体现A特征的特征是让λ1。V1,V2分别是特征λ1,λ2对应的特征向量。
因为λ1>λ2,所以选择v1进行降维,
A'--------->V1'A'---------->1x100(二维向量变成了一维样本)
2X100 ——>1X2X2X100
V1'A'则为被压缩的样本,如果要恢复成原来的矩阵:
V1V1'A'---------->A
(因为S=[V1,V2]是标准正交的,之间点乘为0,和自己点乘为1)
在对A做PCA之前还有一个步奏,需要将A矩阵化为均值为0的矩阵。
这样做的原因是为了让λ1,λ2的方向经过原点,因为不经过原点的直线是不能用一个二维向量表示的,如下图所示:
要表示直线AB上的点A,B的方向必须用
OA=0A'+A'A
OB=OB'+B'B
其中,A'A=B'B=[0,b]',OA'与OB'为过原点的方向向量。
所以不过原点的直线上的点,必须用一个固定截距向量和一个过原点的方向向量表示,所以需要将A矩阵化为均值为0的矩阵。
编写一个对100X2的数据进行PCA的程序,主要部分如下:
def PCA(dataMat,topNfeat=5):
#topNfeat=5 默认选择前五个最大的特征值
#减去均值
meanVals = np.mean(dataMat,axis = 0)
dataMean = dataMat - meanVals
#求协方差方阵
conMat = dataMean.T.dot(dataMean)
#求特征值和特征向量
eigVals,eigVects = np.linalg.eig(conMat)
#对特征值进行排序
eigValInd = np.argsort(eigVals)
#得到的eigValInd是从小到大的排列,对应的原数据中该元素的索引
#x = np.array([3, 1, 2])
#np.argsort(x)
#array([1, 2, 0])
#从小到大依次是1,2,3,1对应的索引是1,2对应的索引是2,3对应的索引是0
eigValInd = eigValInd[:-(topNfeat+1):-1]
#逆序,从最大到最小的前topNfeat个
#除去不需要的特征向量
redeigVects=eigVects[:,eigValInd]
#求新的数据矩阵
lowdataMat = dataMean.dot(redeigVects)
#求从低维还原回来的数据
condata = (lowdataMat.dot(redeigVects.T)) + meanVals
#输出降完维德数据加均值
#因为降维后的数据是一维的了,所以只能加上dataMat整体的平均数进行恢复了
reducedata=lowdataMat+np.mean(dataMat)
return reducedata,condata
结果:
蓝色点是原始数据
黑色点是被降维后的数据
红色点是由被降维的数据恢复的数据
绿色直线是理想的直线
将结果放大,如下图
我们可以看到每一个红色点都可以找到一个蓝色的原始数据与它对应。
常用的主元素分析法,除了PCA还有SVD,SVD一般用在矩阵的协方差矩阵不可逆时。
完整代码下载:
http://pan.baidu.com/s/1boU0rG7
提取码:va4v
补充:
python自带PCA函数介绍:
from sklearn.decomposition import PCA#从sklearn中导入PCA
pca = PCA(n_components=0.8,whiten=True)#设置PCA参数#n_components:
#设为大于零的整数,会自动的选取n个主成分,
#设为分数时,选择特征值占总特征值大于n的,作为主成分
#whiten:
#True表示做白化处理,白化处理主要是为了使处理后的数据方差都一致
pca.fit_transform(data)
pca.transform(data)
#对数据data进行主成分分析
sklearn PCA 官方文档
http://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html