Spark笔记(4)：计算dataframe中两列的相关系数

spark

皮尔森、斯皮尔曼(pearson spearman)计算相关系数

import org.apache.spark.mllib.stat.Statistics

val df1 = sql("select new_rank_level,old_rank_level from ad_tmp.xxx")
val df_real = df1.select("old_rank_level","new_rank_level")
val rdd_real = df_real.rdd.map(x=>(x(0).toString.toDouble ,x(1).toString.toDouble ))
val label = rdd_real.map(x=>x._1.toDouble )
val feature = rdd_real.map(x=>x._2.toDouble )
 
val cor_pearson:Double = Statistics.corr(label, feature, "pearson")
println(cor_pearson)
0.23997483383749665 
 
val cor_spearman:Double = Statistics.corr(label, feature, "spearman")
println(cor_spearman)
cor_spearman: Double = 0.23997567905723607

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

皮尔森系数与斯皮尔曼等级相关系数在生物信息学上的使用
皮尔森相关系数在所有相关系数的计算方法里面，最常见的就是皮尔森相关。皮尔森相关系数也称皮尔森积差相关系数，是一种...
onlyme_862a阅读 2,667评论 0赞 2
相关性系数介绍+python代码实现 correlation analysis
参考文献： 1.python 皮尔森相关系数 https://www.cnblogs.com/lxnz/p/709...
榴莲气象阅读 5,434评论 0赞 6
2019-07-30 统计学三大相关系数
文章来源 https://blog.csdn.net/zxyscz/article/details/8201469...
Koalaemu阅读 1,230评论 0赞 0
统计学之三大相关性系数（pearson、spearman、kendall）
关注公众号：“程序员成长软技能” ，日拱一卒，功不唐捐！（转自微信公众号克里克学苑）三个相关性系数（pears...
数大招疯阅读 42,815评论 3赞 20
令狐兄弟
令狐兄弟你不会认识我的，令狐兄弟我不会武功我不懂剑术更不曾独步江湖我所会的是那么一点儿酒令狐兄弟，如果...
飞雪惊鸿阅读 280评论 0赞 1

赞1赞

赞赏

手机看全文