SPSS之特征筛选与主成分分析

业务上对特征值维度的要求:

统计学模型:3-15个维度,高维度可能导致维度灾难------理论

机器学习模型:50个维度,速度问题------降维

如何降维:

保留重要的特征,剔除不重要的特征


重要特征筛选:1.经验法---站队(2-3个特征),2.经验法+数据分析法---创新(1-2个特征)不重要特征值判断:1.数据分析法+经验法(提高模型精确度---删除剩下的50%),2.数据分析法(提高模型速度--删除30%)                      剩下的用主成分分析压缩到15个以内。

处理流程:

1.经验法

2.数据分析法(使用yx相关分析,剔除与y无关的变量)

3.经验法+数据分析法(x与x相关分析)

4.数据分析法+经验法(逐步回归法)

5.主成分分析(因为前四步,已经把重要的变量筛选出来了,不重要的删除了,剩下的变量意义很模糊)

下面使用bankloan_binning(提取码:78uh)做个案例:

1.经验法(通过业务判断age_group是重要的)




这里可以只看见所定义的变量集,隐藏不关系的变量

2.数据分析法








可以删除1,4个变量


3.经验法+数据分析法



下面将使用统计学方法对变量做整合








使用新变量,删除两个被拟合的变量

4.数据法+经验法(删除变量)


5.主成分分析(若变量个数仍大于15,对整个结果进行压缩)





用两个主成分解释三个变量较为合适(包含信息量大于0.7),但是实际业务中一般要求剩余变量总数/保留主城分数>3


这里可以设置保留主城分数



即可将主成分保存为新变量
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容