R语言-dplyr包进行条件均值

实际处理数据中,我们往往需要将某变量分组进行运算,dplyr包中的group_by和summarise函数联合使用,会让code变得更简洁。

library(dplyr)

##读取tsv格式文件

data<-read.delim('pseudo_facebook.tsv')

 data的前6行数据

我想按照age进行分组,对friend_count的均值和中位数进行计算。

##用group_by分组

age_groups<-group_by(data,age)

##summarise函数将参数汇总,mean和median分别是求平均数和中位数,n是个数

data.fc_by_age<-summarise(age_groups, friend_count_mean=mean(friend_count), friend_count_median=median(friend_count), n=n())

##按年龄排序

pf.fc_by_age<-arrange(pf.fc_by_age,age)


查看数据

也可以用管道函数,一样的效果

pf.fc_by_age<-pf %>%

group_by(age) %>%

summarise(friend_count_mean = mean(friend_count), friend_count_median = median(friend_count), n = n()) %>%

arrange(age)

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容