Model based ranking
这种方法的思路是直接使用你要用的机器学习算法,针对每个单独的特征和响应变量之间建立预测模型。
皮尔森相关系数等价于线性回归里的标准化回归系数。
假如某个特征和相应变量之间的关系是非线性的。可以用基于树的方法(决策树、随机森林)或者拓展的线性模型。
基于树的方法比较易于使用。因为他们对非线性关系的建模比较好。
但是需要注意过拟合问题,因此树的深度最好不要太大。
再者就是运用交叉验证。
这是代码和运行结果,其实就是单一属性和结果之间经过交叉验证得到的评分。
from sklearn.cross_validation import cross_val_score, ShuffleSplit