文章参考:http://blog.codinglabs.org/articles/pca-tutorial.html
基础
1.对角矩阵(diagonal matrix)是一个主对角线之外的元素皆为0的矩阵
2.对称矩阵,除对角线,其余值一三象限相等
3.矩阵对角化:

4.实对称矩阵(协方差矩阵就是)及性质:

5.正交矩阵

6.正定矩阵

7.协方差矩阵的简单理解,主页协方差是针对的不同维度的计算(https://blog.csdn.net/szu_hadooper/article/details/72844602)

8.理解向量的乘积(将向量与新基做向量内积运算,就得到映射到新基下的新向量,坐标):

9.数据降维 & 矩阵乘法的关系(需要理解Y=PX,即矩阵X在基P的映射下,得到降维后的矩阵Y)

问题优化讨论开始:
1.方差:如下图如何让二维空间降维一维空间,同时要信息量最大化?
如果简单的映射到x或者y轴,那么信息的重合度很大,不可取。而我们希望投影的值尽量分散,就想到了方差,当然二维降维一维问题,可以只考虑方差最大化来确定投影方向(猜测应该一,三象限的方向)

2.协方差:如果是n维(n>2),降维k维(k>2,k<n)这个时候如果只考虑方差,那么各个维度也重合了,信息量也较小。所以引入协方差,俩两维度协方差最大,表示两维度相关性最小,保留的原始信息就越多。所以让协方差为0,表示各个维度向量正交。即让协方差矩阵(本身协方差矩阵为对称的方正)变为对角矩阵,即让原始n维数据的协方差矩阵对角化,下面是推导过程

所以结合基础3,实际就转换为求解原始数据的协方差矩阵的特征值和特征向量问题上来了(如下)

可以看见特征值实际就是对应到协方差矩阵的对角值,也就是方差。那么最后按照方差由大到小排序(参照优化问题1:方差越大表示投影的值越分散),取钱k个特征值对应的特征向量。就得到了新基P,索引最后X通过P映射后的Y=PX