R语言-dplyr包进行条件均值

实际处理数据中，我们往往需要将某变量分组进行运算，dplyr包中的group_by和summarise函数联合使用，会让code变得更简洁。

library(dplyr)

##读取tsv格式文件

data<-read.delim('pseudo_facebook.tsv')

data的前6行数据

我想按照age进行分组，对friend_count的均值和中位数进行计算。

##用group_by分组

age_groups<-group_by(data,age)

##summarise函数将参数汇总，mean和median分别是求平均数和中位数，n是个数

data.fc_by_age<-summarise(age_groups, friend_count_mean=mean(friend_count), friend_count_median=median(friend_count), n=n())

##按年龄排序

pf.fc_by_age<-arrange(pf.fc_by_age,age)

查看数据

也可以用管道函数，一样的效果

pf.fc_by_age<-pf %>%

group_by(age) %>%

summarise(friend_count_mean = mean(friend_count), friend_count_median = median(friend_count), n = n()) %>%

arrange(age)

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

友情链接更多精彩内容

3赞4赞

赞赏

手机看全文

R语言-dplyr包进行条件均值

相关阅读更多精彩内容

友情链接更多精彩内容