终于理解PCA了!感谢李宏毅老师

参考资料:
李宏毅 机器学习 24.13 Unsupervised Learning - Linear Me(Av10590361,P24).Flv

在之前的学习中,我看到很多很好的解释,但是在数学的推导上还存在一些漏洞,百思不得其解,但是今天看到李宏毅老师的推导,神清气爽。

  • PCA求解推导
    我们的目标是求出单位投影向量W,数据s投影后的方差和最大。



    第一个投影向量求解,如右下角所示,是一个条件优化问题



    拉格朗日乘数法,得到特征值的计算公式,这还不够,继续推导可知只有特征值最大对应的特征向量才是我们要求的第一个向量。

  • PCA decorrelation
    投影后数据在新的坐标的Cov各个维度之间是不相关的,也就是矩阵对角线外都为0,这样在做实现模型的时候可以减少参数,比如高斯假设的时候,各轴之间相关为0,那么减少了很多参数。


  • SVD
    SVD的角度是几个矩阵相乘跟原来矩阵误差最小,SVD的求解也是要求特征值和特征向量,所以跟PCA还是蛮像的。


  • PCA像一个隐藏层的神经网络,线性激活函数
    Autoencoder
    跟PCA还有点区别是w之间不是垂直的,解出来误差比PCA大,但是可以变长一点。


  • PCA的缺点
    将数据降维后混在一起,LDA会根据标签将数据分开。
    线性


  • NMF
    分解得出系数非负,这样就像叠加了,如果可以是负的可以是减去。

  • Matrix Factorization
    每个用户又会一定的呆、傲成分,每个物品也有一定的呆、傲成分,用户买得越多,说明两者相似度越高(内积)。



    于是出现下面的等式,我们希望求得人和物品属性对应的向量,内积得到买卖的矩阵,跟实际的买卖矩阵相似,这个可以用SVD来进行求解。
    如果是买卖矩阵有缺失值,用gradient descent做也是可以的



    求解出来后,可以预测缺失值

    更准确模型,注意新添加的bA和b1的含义。
  • 其他降维方法


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容