PCA

PCA

Principal Component Analysis, 主成分分析

对于正交属性空间中的样本点，用一个超平面对所有样本点进行恰当的表达，此超平面需要满足两个性质：

1. 最近重构性：样本点到这个超平面距离足够近

2. 最大可分性：样本点在这个超平面上的投影分得足够开

二者等价，只需对协方差矩阵 $XX^T$ 进行特征值分解，求得特征值排序。

假设有N个维度，取前d个特征值对应的特征向量构成 $W^*=(w_1,w_2,...,w_{d})$ , 即是主成分分解式。

1. 用累计方差贡献率，不同d值下的累计方差值达到指定比例（python 中pca.explained_variance_ratio 解释方差比例）。(Python数据科学手册p382）

2. 设置重构阈值t=95%，取 $\frac{\Sigma _{i=1}^{d} \lambda_{i}}{\Sigma_{i=1}^{N}\lambda_{i}} >=t$

3. 用开销小的学习器，采用不同的d值交叉验证，选取d

1.被删除的维度往往与噪声有关

2.留下的主成分过滤的噪声数据，可以还原成原有的维度观察数据变化

components = pca.transform(faces.data)

projected = pca.inverse_transform(components)

1. 若某几个原始变量的PCA系数较大，且十分相近，那么这几个变量可能存在共线性。（数据挖掘与数据运营p123)

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。