Principal Component Analysis, 主成分分析
原理
(机器学习P229)
对于正交属性空间中的样本点,用一个超平面对所有样本点进行恰当的表达,此超平面需要满足两个性质:
1. 最近重构性:样本点到这个超平面距离足够近
2. 最大可分性:样本点在这个超平面上的投影分得足够开
二者等价,只需对协方差矩阵进行特征值分解,求得特征值排序。
假设有N个维度,取前d个特征值对应的特征向量构成, 即是主成分分解式。
维度数d的选择
1. 用累计方差贡献率,不同d值下的累计方差值达到指定比例(python 中pca.explained_variance_ratio 解释方差比例)。(Python数据科学手册p382)
2. 设置重构阈值t=95%,取
3. 用开销小的学习器,采用不同的d值交叉验证,选取d
特征噪声
1.被删除的维度往往与噪声有关
2.留下的主成分过滤的噪声数据,可以还原成原有的维度观察数据变化
components = pca.transform(faces.data)
projected = pca.inverse_transform(components)
判断特征共线性
1. 若某几个原始变量的PCA系数较大,且十分相近,那么这几个变量可能存在共线性。(数据挖掘与数据运营p123)