Python 相关分析与实现

相关分析最常用的方法就是用相关系数直接衡量连续值的相关性,而离散属性的相关性是用熵增益转换成相关性的形式来衡量。

一、分析连续值的相关性:

Pearson相关系数及Spearman相关系数如下:

相关系数计算公式
代码实现
蓝色区域表示具有明显相关性,橙色区域表示有明显的负相关性

二、分析离散值的相关性:

熵的相关公式

说明:

1.熵是衡量不确定的值,值越接近于0,说明不确定性越小;数据的类别越多熵越大。

2.互信息(熵增益):缺点:对分类数目多的特征有不正确的偏向,也就是说不具有归一化的特点,它的不确定性是上不封顶的,所以对于我们相关性的界定是不方便的,为了解决这个问题,有了熵增益率。

3.熵增益率:是不对称的,即X对Y的增益率与Y对X的增益率是不等的,所以要进行转换,转换成相关性。

4.相关性:解决了X和Y的对称性。

以下为举例说明:

分析X与Y相关性

代码实现如下:

代码实现


代码实现


输出结果
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 决策树理论在决策树理论中,有这样一句话,“用较少的东西,照样可以做很好的事情。越是小的决策树,越优于大的决策树”。...
    制杖灶灶阅读 5,972评论 0 25
  • 简书公式支持不太好,欢迎跳转到机器学习深度学习面试题总结GitHub看完整的总结,GitHub总结比较全,大多数是...
    MrMiaow阅读 4,023评论 1 8
  • 以西瓜书为主线,以其他书籍作为参考进行补充,例如《统计学习方法》,《PRML》等 第一章 绪论 1.2 基本术语 ...
    danielAck阅读 4,695评论 0 5
  • 1 前言 在了解树模型之前,自然想到树模型和线性模型,他们有什么区别呢? 树形模型是一个一个特征进行处理,之前线性...
    高永峰_GYF阅读 1,440评论 0 1
  • 课时之余,晴好周末。几缕闲情,牵引着我们穿过“吴中胜景”的石坊,来到久闻却未见的石湖。既是闲逛,我们也未曾想到...
    邱秋1729阅读 394评论 0 0