业务上对特征值维度的要求:
统计学模型:3-15个维度,高维度可能导致维度灾难------理论
机器学习模型:50个维度,速度问题------降维
如何降维:
保留重要的特征,剔除不重要的特征
重要特征筛选:1.经验法---站队(2-3个特征),2.经验法+数据分析法---创新(1-2个特征)不重要特征值判断:1.数据分析法+经验法(提高模型精确度---删除剩下的50%),2.数据分析法(提高模型速度--删除30%) 剩下的用主成分分析压缩到15个以内。
处理流程:
1.经验法
2.数据分析法(使用yx相关分析,剔除与y无关的变量)
3.经验法+数据分析法(x与x相关分析)
4.数据分析法+经验法(逐步回归法)
5.主成分分析(因为前四步,已经把重要的变量筛选出来了,不重要的删除了,剩下的变量意义很模糊)
下面使用bankloan_binning(提取码:78uh)做个案例:
1.经验法(通过业务判断age_group是重要的)
这里可以只看见所定义的变量集,隐藏不关系的变量
2.数据分析法
可以删除1,4个变量
3.经验法+数据分析法
下面将使用统计学方法对变量做整合
使用新变量,删除两个被拟合的变量
4.数据法+经验法(删除变量)
5.主成分分析(若变量个数仍大于15,对整个结果进行压缩)
用两个主成分解释三个变量较为合适(包含信息量大于0.7),但是实际业务中一般要求剩余变量总数/保留主城分数>3
这里可以设置保留主城分数
即可将主成分保存为新变量