R语言-数据转化(log和根号)

在我们实际建模拟合时,若数据中某个变量过度离散,则需要做转化,常见的有做log和根号两种方式。

install.packages('gridExtra') 

library(gridExtra) 

#先画一个柱状图,观察friend_count这个变量的整体趋势,发现过度离散

p1<-ggplot(aes(x=friend_count),data=pf)+geom_histogram()

#log转化

p2<-p1+scale_x_log10()

#根号转化

p3<-p1+scale_x_sqrt()

#将三张图放在一个面板里

grid.arrange(p1,p2,p3,ncol=1)


最后我们发现,做了log转化的数据更接近正态分布。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容