R包的安装有两种,具体使用哪一种需要查看包的来源
1: install.package("包")
2: BioManager::install("包")
以dplyr包为例,常用命令
dplyr常用命令.png
ps:tidyverse就是几个包的集合,包括ggplot2,dplyr,tidyr,readr,purrr,tibble,stringr, forcats。
dplyr的两个实用技能
1: 管道操作 %>%
test %>%
group_by(Species) %>%
summarise(mean(Sepal.Length), sd(Sepal.Length))
2:count统计某列的unique值
count(test,Species)
dplyr处理关系数据
连接两个表
stringsAsFactors = FALSE,可以避免将字符转化为因子。
1.内连inner_join(test1和2取交集)
inner_join(test1, test2, by = "x")
## x z y
## 1 b A 2
## 2 e B 5
## 3 f C 6
2.左连left_join(用2筛选1)
left_join(test1, test2, by = 'x')
## x z y
## 1 b A 2
## 2 e B 5
## 3 f C 6
## 4 x D NA
left_join(test2, test1, by = 'x')
## x y z
## 1 a 1
## 2 b 2 A
## 3 c 3
## 4 d 4
## 5 e 5 B
## 6 f 6 C
3.全连full_join
full_join( test1, test2, by = 'x')
## x z y
## 1 b A 2
## 2 e B 5
## 3 f C 6
## 4 x D NA
## 5 a
## 6 c
## 7 d
4.半连接(返回能够与2匹配的1)
semi_join(x = test1, y = test2, by = 'x')
## x z
## 1 b A
## 2 e B
## 3 f C
5.反连接(返回不能够与2连接的1)
anti_join(x = test2, y = test1, by = 'x')
## x y
## 1 a 1
## 2 c 3
## 3 d 4
6.简单合并
列合并的时候,列数要相同;行合并的时候,行数要相同。
bind_rows(test1, test2)
bind_cols(test1, test3)