十一.PCA案例分析及小结

用PCA做噪音过滤

PCA用做噪音过滤的方法——任何成分的方差都远大于噪音的方差,相对于噪音,主成分相对不受到影响。

因此,仅利用主成分的最大子集重构该数据,那么应该就可以实现选择性保留信号并且过滤噪音。

首先,定义一个创建输入的函数用于显示无噪音数据集:

创造一组包含噪声的手写数字图像集:

用噪音数据集训练一个PCA,要求投影后保留50%的方差:

这里的50%的方差对应12个主成分。接下来利用逆变换重构过滤后的手写数字:

去噪后手写数字

这个信号保留/噪音过滤性质是PCA一种非常有用的特征选择方式。

对于高维数据,可以利用PCA该性质在将数据投影到低维空间,然后进行分类器训练,在此过程中,该分类器将自动过滤输入数据中的随即噪音。

PCA小结

主成分分析是一个应用广泛的无监督方法,适用于数据可视化、噪音过滤、特征抽取和特征工程领域,主要用于数据降维。

对于高维数据,可以从PCA分析开始,可视化点间方差关系。

缺点:

(1)容易受到异常数据点影响,介于此,一些优化方法也被开发出来,如RandomizedPCA和SparePCA:

RandomizedPCA使用了一个非确定方法,快速近似计算一个高维度数据的前几个主成分;

SparePCA引入正则项来保证成分的稀疏性。

(2)除此之外,PCA一般只能处理线性分布的数据。

对于非线性数据,通常选择另一种方法——流形学习。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容