多个特征针对一个标签列的相关系数计算

思路:

step 0: 特征提取,特征归一化

step 1.先将多个特征项进行回归分析,建立回归模型。

step 2.利用回归模型,计算预测值

step 3.计算预测值和标签值之间的相关系数

step 0:

特征归一化选择:MinMax,0均值 etc.

sklearn 下自带MinMaxScaler对象, StandardScaler对象

step 1:

回归模型选择:线性回归,随机森林?

附加:做出视觉效果图

step 2:

没啥,直接predict就好

step 3:

相关系数类型:pearson,kendall, spearman

pearson:线性,定距变量。得出r值为相关系数

spearman:定序型变量,不等距变化的数据,阶级等。但是还是能排序的数据。算出的P值,并不是直接可用的相关系数,需要对照spearman轶相关系数表。

kendall: 定类变量,需转化成数字。 能体现出一致性不一致性的对。得出值为相关系数。

运用pandas或者numpy计算

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容