在高效数据整理工具——dplyr(一)中,简要介绍使用dplyr对但数据表的处理,在本节中将会学习如何使用dplyr对多数据表进行处理。主要函数有如下图所示。
1、数据框合并
两个数据框合并可分别使用bind_rows(y, z)
和bind_cols(y, z)
进行行或者列合并。
> df1 <- data.frame(a=1:2,b=3:4);df1
a b
1 1 3
2 2 4
> df2 <-data.frame(a=5:6,b=7:8);df2
a b
1 5 7
2 6 8
> bind_rows(df1,df2)
a b
1 1 3
2 2 4
3 5 7
4 6 8
> bind_cols(df1,df2)
a b a1 b1
1 1 3 5 7
2 2 4 6 8
此外,也可以使用R自带的rbind()
和cbind()
进行数据框的合并。
2、数据框连接
dplyr提供了left_join()
, right_join()
, inner_join()
, full_join()
来提供不同的连接方式。
left_join()
以左边数据框为基准,将右边数据框连接进去,可存在一对多的映射关系,保留左边数据框的所有行。
> df1 <- data.frame(x = c(1, 2), y = 2:1)
> df2 <- data.frame(x = c(1, 3), a = 10, b = "a")
> df1;df2
x y
1 1 2
2 2 1
x a b
1 1 10 a
2 3 10 a
> left_join(df1,df2)
Joining, by = "x"
x y a b
1 1 2 10 a
2 2 1 NA <NA>
right_join()
用法与left_join()
相似,只是以右边为基准,连接左侧数据框。
> right_join(df1,df2)
Joining, by = "x"
x y a b
1 1 2 10 a
2 3 NA 10 a
inner_join()
则是选取连接后两个数据框都有的记录保留。
> inner_join(df1,df2)
Joining, by = "x"
x y a b
1 1 2 10 a
full_join()
则是保留两个数据框的所有记录。
> inner_join(df1,df2)
Joining, by = "x"
x y a b
1 1 2 10 a
除了上面四种常见的连接方式外,dplyr还提供了另外两个函数通过共有记录来筛选数据:semi_join(x,y)
只保留x中能与y匹配的记录;而anti_join(x,y)
则是丢掉x中与y匹配的记录。
3、数据框间的交集、差集与并集
dplyr提供了intersect(x,y)
,union(x,y)
,setdiff(x,y)
三个函数来分别进行求交集、并集和差集。
> df1 <- data_frame(x = 1:2, y = c(1L, 1L))
> df2 <- data_frame(x = 1:2, y = 1:2)
> df1;df2
# A tibble: 2 x 2
x y
<int> <int>
1 1 1
2 2 1
# A tibble: 2 x 2
x y
<int> <int>
1 1 1
2 2 2
> df1;df2
# A tibble: 2 x 2
x y
<int> <int>
1 1 1
2 2 1
# A tibble: 2 x 2
x y
<int> <int>
1 1 1
2 2 2
# 交集
> intersect(df1,df2)
# A tibble: 1 x 2
x y
<int> <int>
1 1 1
# 并集
> union(df1,df2)
# A tibble: 3 x 2
x y
<int> <int>
1 1 1
2 2 1
3 2 2
# 差集
> setdiff(df1,df2)
# A tibble: 1 x 2
x y
<int> <int>
1 2 1
4、多个数据框的连接
对于多个数据框的连接可以使用purrr
包中的reduce
函数:
library(dplyr)
x <- data_frame(i = c("a","b","c"), j = 1:3)
y <- data_frame(i = c("b","c","d"), k = 4:6)
z <- data_frame(i = c("c","d","a"), l = 7:9)
list(x, y, z) %>% reduce(full_join, by = "i")
# A tibble: 4 x 4
# i j k l
# <chr> <int> <int> <int>
# 1 a 1 NA 9
# 2 b 2 4 NA
# 3 c 3 5 7
# 4 d NA 6 8
list(x, y, z) %>% reduce(inner_join, by = "i")
# A tibble: 1 x 4
# i j k l
# <chr> <int> <int> <int>
# 1 c 3 5 7