终于理解PCA了！感谢李宏毅老师

参考资料：
李宏毅机器学习 24.13 Unsupervised Learning - Linear Me(Av10590361,P24).Flv

在之前的学习中，我看到很多很好的解释，但是在数学的推导上还存在一些漏洞，百思不得其解，但是今天看到李宏毅老师的推导，神清气爽。

PCA求解推导
我们的目标是求出单位投影向量W，数据s投影后的方差和最大。

第一个投影向量求解，如右下角所示，是一个条件优化问题

拉格朗日乘数法，得到特征值的计算公式，这还不够，继续推导可知只有特征值最大对应的特征向量才是我们要求的第一个向量。
PCA decorrelation
投影后数据在新的坐标的Cov各个维度之间是不相关的，也就是矩阵对角线外都为0，这样在做实现模型的时候可以减少参数，比如高斯假设的时候，各轴之间相关为0，那么减少了很多参数。
SVD
SVD的角度是几个矩阵相乘跟原来矩阵误差最小，SVD的求解也是要求特征值和特征向量，所以跟PCA还是蛮像的。
PCA像一个隐藏层的神经网络，线性激活函数
Autoencoder
跟PCA还有点区别是w之间不是垂直的，解出来误差比PCA大，但是可以变长一点。
PCA的缺点
将数据降维后混在一起，LDA会根据标签将数据分开。
线性
NMF
分解得出系数非负，这样就像叠加了，如果可以是负的可以是减去。
Matrix Factorization
每个用户又会一定的呆、傲成分，每个物品也有一定的呆、傲成分，用户买得越多，说明两者相似度越高（内积）。

于是出现下面的等式，我们希望求得人和物品属性对应的向量，内积得到买卖的矩阵，跟实际的买卖矩阵相似，这个可以用SVD来进行求解。
如果是买卖矩阵有缺失值，用gradient descent做也是可以的

求解出来后，可以预测缺失值

更准确模型，注意新添加的bA和b1的含义。
其他降维方法