学习小组Day6笔记--张仁波

安装和加载R包

install.packages("dplyr") 原来已安装该包。
library(dplyr) 加载包。

数据集操作

mutate(test, new = Sepal.Length * Sepal.Width) #新增列。
select(test,1) #按列号筛选并显示。
select(test,c(1,5)) #按列号筛选并显示。
select(test,Sepal.Length) #按列的名称筛选并显示。
filter(test, Species == "setosa") #筛选行。
filter(test, Species == "setosa"&Sepal.Length > 5 ) #筛选物种名称和花萼长度。
filter(test, Species %in% c("setosa","versicolor")) #筛选两个物种。
arrange(test, Sepal.Length) #按萼片长度从小到大排序。
arrange(test, desc(Sepal.Length)) #降序排列。
summarise(test, mean(Sepal.Length), sd(Sepal.Length)) #计算萼片长度的平均值和标准差。
summarise(group_by(test, Species),mean(Sepal.Length), sd(Sepal.Length)) #分组计算。

  group_by(Species) %>% 
  summarise(mean(Sepal.Length), sd(Sepal.Length))

管道操作
count(test,Species) #计算每个物种的样本量。

dplyr处理关系数据

inner_join(test1, test2, by = "x") #取交集。
left_join(test1, test2, by = 'x') #左连。
bind_rows(test1, test2) #连接在行下。
bind_cols(test1, test3) #连接在列的右面。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。