分析思路:
1.导入必要的包(pandas,numpy,scipy.stats,matplotlib.pyplot,seaborn)
2.读取文件,为df
3.按 department 分组并获得索引 dp_indices ;
4. 得到分组后 dp_indices 的keys键;
5.初始化一个矩阵 dp_t_mat ,矩阵的宽和高都是len(dp_keys);
6.行(i)列(j)各自遍历每个数据后,通过 left 行号索引对应行keys的数据,用 scipy.stats.ttest 求交叉后 t 检验的 p 值;
7.如果 t 检验的P值小于0.05赋-1,否则等于P(这步是让heatmap绘出的图形,更加具有区分性);
8.把P值赋给矩阵;
9.绘制图形
(注意:t 检验的p值越小,二者差异越大,越不相关)
交叉分析实现代码
heatmap绘制出的图形