相关性分析
tips:相关性分析不要局限在数值型数据和数值型数据之间(散点图),还有其他的相关性可供分析:
1.数值型数据和数值型数据之间的相关性:用散点图。
2.分类变量和分类变量之间的相关性:用马赛克图。
3.分类变量和数值型变量之间的相关性:柱形图和箱线图。
1.直接绘制散点图
用 plot(kind = 'scattor')
或者
plt.scattor()
2.绘制散点图矩阵
用pandas 的 scatter_matrix() 功能
3.计算相关系数
(1) pearson相关系数 r 介于 -1 与 1 之间:
r>0 为 正相关,r = 1 为完全正线性相关
r<0 为 负相关, r = -1 为完全负线性相关
r=0 为 不相关
不同程度的线性相关:
| r | <= 0.3 为不存在线性相关
0.3 <| r |<= 0.5 为低度线性相关
0.5 <| r |<= 0.8 为显著线性相关
| r |>0.8 为高度线性相关
(2) Spearson 秩相关系数:
这个东西有点迷,目前没看懂。。。
(3) 判定系数:
判定系数是相关系数的平方,用r^2 表示。0<=r^2<= 1 越靠近1 表示x与y 的相关性越强,越靠近0 表示两个变量之间没有直线相关关系。