主成分分析(principal components analysis)旨在利用降维的思想,把多目标转化为少数几个综合指标。
产生背景
在用统计方法研究多变量问题时,变量太多会增加计算量和分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析就是适应这一要求产生的。
基本原理
设法将原来具有一定相关性的变量重新组合成一组新的相互无关的几个综合变量,同时根据实际需要从中可以取出较少的几个综合变量尽可能多地反映原来变量的信息的统计方法。
在统计学中,主成分分析是一种简化数据集的技术。它是一种线性变换,这个变换把数据变换到一个新坐标系统中,使得任何数据投影的第一大方差在第一个坐标(第一主成分)上,第二大方差在第二个坐标(第二主成分)上,以此类推。主成分分析经常用来减少数据集的维数,同时保持数据集对方差贡献最大的特征。
分析步骤
- 将原始数据排列成矩阵X,行代表样例,列代表特征。
- 对X进行数据标准化,计算每列的平均值,对于所有样例,每行都减去对应的平均值
- 求X的协方差矩阵C
- 求协方差矩阵的特征值和特征向量
- 将特征值由大到小排列,选择其中最大的k个,然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。
- 将样本点投影到选取的特征向量上。假设样例数为m,特征数为n,减去均值后的样本矩阵为m·n,协方差矩阵为n·n,选取的k个特征向量组成的矩阵为n·k,最后投影后得到的数据为m·k = (m·n矩阵) * (n·k矩阵) ,这样就将原始样例的n维特征变成了k维,这k维就是原始特征在k维上的投影。
详细的推导参见:http://blog.jobbole.com/109015/