今天学习了R包dplyr,总结一下就是需要学会 :
- 设置镜像
- 镜像的高级设置方法(不用每次打开Rstudio都得运行设置镜像代码,其实是将程序写进了Rstudio的开启运行程序中,_)
- 然后是 安装R包(CRAN来源的R包和Bioconductor来源的R包加载方式不一样) 加载R包
- 重点是dplyr包
1.可以先设置全局变量options(stringsAsFactors = F)
避免将factor引入数据框。
2.后依次学习了5个基础函数(mutate()、select()、filter()、arrange()、summarise()),其中summarise()可以和group_by()连用效果很好。 - dplyr包的两个实用技能
- 管道操作 %>% (cmd/ctr + shift + M) #加载任意一个tidyverse包即可用管道符号
test %>%
group_by(Species) %>%
summarise(mean(Sepal.Length), sd(Sepal.Length))
- count统计某列的unique值
count(test,Species)
## # A tibble: 3 x 2
## Species n
##
## 1 setosa 2
## 2 versicolor 2
## 3 virginica 2
- dplyr包处理关系型数据的5个函数
- 內连inner_join,取交集
inner_join(test1, test2, by = "x")
- 左连left_join,取交集
left_join(test1, test2, by = 'x')
- 全连full_join
full_join( test1, test2, by = 'x')
- 半连接:返回能够与y表匹配的x表所有记录semi_join
semi_join(x = test1, y = test2, by = 'x')
- 反连接:返回无法与y表匹配的x表的所记录anti_join
anti_join(x = test2, y = test1, by = 'x')
- 在相当于base包里的cbind()函数和rbind()函数;注意,
bind_rows()函数需要两个表格列数相同,而bind_cols()函数则需要两个数据框有相同的行数
bind_rows(test1, test2)
bind_cols(test1, test3)