基于学习模型的单变量特征选择

Model based ranking
这种方法的思路是直接使用你要用的机器学习算法,针对每个单独的特征和响应变量之间建立预测模型。
皮尔森相关系数等价于线性回归里的标准化回归系数。
假如某个特征和相应变量之间的关系是非线性的。可以用基于树的方法(决策树、随机森林)或者拓展的线性模型。
基于树的方法比较易于使用。因为他们对非线性关系的建模比较好。
但是需要注意过拟合问题,因此树的深度最好不要太大。
再者就是运用交叉验证。


image.png

这是代码和运行结果,其实就是单一属性和结果之间经过交叉验证得到的评分。
from sklearn.cross_validation import cross_val_score, ShuffleSplit

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容