PCA

Principal Component Analysis, 主成分分析

原理 

机器学习P229

对于正交属性空间中的样本点,用一个超平面对所有样本点进行恰当的表达,此超平面需要满足两个性质:

1. 最近重构性:样本点到这个超平面距离足够近

2. 最大可分性:样本点在这个超平面上的投影分得足够开

二者等价,只需对协方差矩阵XX^T进行特征值分解,求得特征值排序。

假设有N个维度,取前d个特征值对应的特征向量构成W^*=(w_1,w_2,...,w_{d}), 即是主成分分解式。

维度数d的选择

1. 用累计方差贡献率,不同d值下的累计方差值达到指定比例(python 中pca.explained_variance_ratio 解释方差比例)。(Python数据科学手册p382)

2. 设置重构阈值t=95%,取 \frac{\Sigma _{i=1}^{d} \lambda_{i}}{\Sigma_{i=1}^{N}\lambda_{i}} >=t

3. 用开销小的学习器,采用不同的d值交叉验证,选取d

特征噪声

1.被删除的维度往往与噪声有关

2.留下的主成分过滤的噪声数据,可以还原成原有的维度观察数据变化

components = pca.transform(faces.data)

projected = pca.inverse_transform(components)

判断特征共线性

1. 若某几个原始变量的PCA系数较大,且十分相近,那么这几个变量可能存在共线性。(数据挖掘与数据运营p123)

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容