tidyverse自学笔记-数据连接

数据准备
本示例数据是自编数据,仅为练习所用,数据结构假设为,两个年份year(2020,2021),两个氮水平nitrogen(N1,N2),两个玉米品种variety(a,b)测定了5个试验指标(变量v1,v2,v3,v4,v5),每个处理3次重复block(1,2,3)。

library(tidyverse) # 调用tidyverse。
## -- Attaching packages --------------------------------------- tidyverse 1.3.1 --
## v ggplot2 3.3.5     v purrr   0.3.4
## v tibble  3.1.6     v dplyr   1.0.8
## v tidyr   1.2.0     v stringr 1.4.0
## v readr   2.1.2     v forcats 0.5.1
## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()
df <- read_csv(file = "df.csv") # 导入数据。文档在工作目录下,所以直接给文件名导入。
## Rows: 24 Columns: 9
## -- Column specification --------------------------------------------------------
## Delimiter: ","
## chr (2): nitrogen, variety
## dbl (7): year, block, v1, v2, v3, v4, v5
## 
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.
df # 查看数据。
## # A tibble: 24 x 9
##     year nitrogen variety block    v1    v2    v3    v4    v5
##    <dbl> <chr>    <chr>   <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
##  1  2020 N1       a           1  1.26  2.14   0.4   5    3.25
##  2  2020 N1       a           2  1.2   2.9    0.1   5.3  1.27
##  3  2020 N1       a           3  1.3   3      0.3   5.6  2.24
##  4  2020 N1       b           1  1.08  1.72   1.8   2.8  1   
##  5  2020 N1       b           2  1.05  1.65   1.7   2.5  3.12
##  6  2020 N1       b           3  1.15  1.35   1.5   3.1  4.57
##  7  2020 N2       a           1  1.32  3.78   1.6   6    5.85
##  8  2020 N2       a           2  1.28  4.32   1.4   6.1  6.48
##  9  2020 N2       a           3  1.35  3.95   1.3   6.2  7.21
## 10  2020 N2       b           1  1.33  3.47   2.8   4.1  6.56
## # ... with 14 more rows

4.数据连接

4.1 行列合并

合并行:前提条件为列名相同,否则作为新列(NA填充),原数据下方堆叠新行,规则是根据列名匹配;
合并列:前提条件为行数相同,原数据右侧拼接新列,规则为根据位置匹配行。

4.1.1 按行合并数据

先创建示例数据集。

df_br1 <- df[1:5,] # 取df数据1到5行作为行合并数据br1。
df_br1 # 查看数据集df_br1。
## # A tibble: 5 x 9
##    year nitrogen variety block    v1    v2    v3    v4    v5
##   <dbl> <chr>    <chr>   <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1  2020 N1       a           1  1.26  2.14   0.4   5    3.25
## 2  2020 N1       a           2  1.2   2.9    0.1   5.3  1.27
## 3  2020 N1       a           3  1.3   3      0.3   5.6  2.24
## 4  2020 N1       b           1  1.08  1.72   1.8   2.8  1   
## 5  2020 N1       b           2  1.05  1.65   1.7   2.5  3.12
df_br2 <- df[12:16,] # 取df数据12到18行作为行合并数据br2。
df_br2 # 查看数据集df_br2。
## # A tibble: 5 x 9
##    year nitrogen variety block    v1    v2    v3    v4    v5
##   <dbl> <chr>    <chr>   <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1  2020 N2       b           3  1.3   3.9    2.2   4.5  7.55
## 2  2021 N1       a           1  1.19  3.61   0.8   6    3.11
## 3  2021 N1       a           2  1.21  3.29   0.5   5.7  2.54
## 4  2021 N1       a           3  1.24  3.26   0.7   5.6  1.28
## 5  2021 N1       b           1  1.09  2.71   1.8   4    3.24

Base R
在R基础包中通过rbind()实现。

rbind(df_br1, df_br2) # 行合并。
## # A tibble: 10 x 9
##     year nitrogen variety block    v1    v2    v3    v4    v5
##    <dbl> <chr>    <chr>   <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
##  1  2020 N1       a           1  1.26  2.14   0.4   5    3.25
##  2  2020 N1       a           2  1.2   2.9    0.1   5.3  1.27
##  3  2020 N1       a           3  1.3   3      0.3   5.6  2.24
##  4  2020 N1       b           1  1.08  1.72   1.8   2.8  1   
##  5  2020 N1       b           2  1.05  1.65   1.7   2.5  3.12
##  6  2020 N2       b           3  1.3   3.9    2.2   4.5  7.55
##  7  2021 N1       a           1  1.19  3.61   0.8   6    3.11
##  8  2021 N1       a           2  1.21  3.29   0.5   5.7  2.54
##  9  2021 N1       a           3  1.24  3.26   0.7   5.6  1.28
## 10  2021 N1       b           1  1.09  2.71   1.8   4    3.24

还可以用merge函数

merge(df_br1, df_br2, all = T) # merge函数行合并。
##    year nitrogen variety block   v1   v2  v3  v4   v5
## 1  2020       N1       a     1 1.26 2.14 0.4 5.0 3.25
## 2  2020       N1       a     2 1.20 2.90 0.1 5.3 1.27
## 3  2020       N1       a     3 1.30 3.00 0.3 5.6 2.24
## 4  2020       N1       b     1 1.08 1.72 1.8 2.8 1.00
## 5  2020       N1       b     2 1.05 1.65 1.7 2.5 3.12
## 6  2020       N2       b     3 1.30 3.90 2.2 4.5 7.55
## 7  2021       N1       a     1 1.19 3.61 0.8 6.0 3.11
## 8  2021       N1       a     2 1.21 3.29 0.5 5.7 2.54
## 9  2021       N1       a     3 1.24 3.26 0.7 5.6 1.28
## 10 2021       N1       b     1 1.09 2.71 1.8 4.0 3.24

注:merge(x, y, by = intersect(names(x), names(y)),
by.x = by, by.y = by, all = FALSE,
all.x = all, all.y = all,
sort = TRUE, suffixes = c(".x",".y"),
incomparables = NULL, ...)
x,y:指定合并的两个数据框;
by,by.x,by.y:指定依据哪些行合并数据框,默认值为相同列名的列;
all,all.x,all.y:指定x和y的行是否应该全在输出文件中;
sort:by指定的列是否要排序;
suffixes:指定除by外相同列名的后缀;
incomparables:指定by中哪些单元不进行合并。

tidyverse

library(tidyverse) # 调用tidyverse。  
bind_rows(df_br1, df_br2) # 合并行数据。
## # A tibble: 10 x 9
##     year nitrogen variety block    v1    v2    v3    v4    v5
##    <dbl> <chr>    <chr>   <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
##  1  2020 N1       a           1  1.26  2.14   0.4   5    3.25
##  2  2020 N1       a           2  1.2   2.9    0.1   5.3  1.27
##  3  2020 N1       a           3  1.3   3      0.3   5.6  2.24
##  4  2020 N1       b           1  1.08  1.72   1.8   2.8  1   
##  5  2020 N1       b           2  1.05  1.65   1.7   2.5  3.12
##  6  2020 N2       b           3  1.3   3.9    2.2   4.5  7.55
##  7  2021 N1       a           1  1.19  3.61   0.8   6    3.11
##  8  2021 N1       a           2  1.21  3.29   0.5   5.7  2.54
##  9  2021 N1       a           3  1.24  3.26   0.7   5.6  1.28
## 10  2021 N1       b           1  1.09  2.71   1.8   4    3.24

4.1.2 按列合并数据

创建示例数据集。

df_bc1 <- df[, 1:5] # 取df数据1到5列作为列合并数据bc1。
df_bc1 # 查看数据集df_bc1。
## # A tibble: 24 x 5
##     year nitrogen variety block    v1
##    <dbl> <chr>    <chr>   <dbl> <dbl>
##  1  2020 N1       a           1  1.26
##  2  2020 N1       a           2  1.2 
##  3  2020 N1       a           3  1.3 
##  4  2020 N1       b           1  1.08
##  5  2020 N1       b           2  1.05
##  6  2020 N1       b           3  1.15
##  7  2020 N2       a           1  1.32
##  8  2020 N2       a           2  1.28
##  9  2020 N2       a           3  1.35
## 10  2020 N2       b           1  1.33
## # ... with 14 more rows
df_bc2 <- df[, 6:8] # 取df数据6到8列作为列合并数据bc2。
df_bc2 # 查看数据集df_bc2。
## # A tibble: 24 x 3
##       v2    v3    v4
##    <dbl> <dbl> <dbl>
##  1  2.14   0.4   5  
##  2  2.9    0.1   5.3
##  3  3      0.3   5.6
##  4  1.72   1.8   2.8
##  5  1.65   1.7   2.5
##  6  1.35   1.5   3.1
##  7  3.78   1.6   6  
##  8  4.32   1.4   6.1
##  9  3.95   1.3   6.2
## 10  3.47   2.8   4.1
## # ... with 14 more rows

Base R
基础包中的cbind()函数可实现列数据连接。

cbind(df_bc1, df_bc2) # cbind合并df_bc1和df_bc2,cbind是直接列合并。
##    year nitrogen variety block   v1   v2  v3  v4
## 1  2020       N1       a     1 1.26 2.14 0.4 5.0
## 2  2020       N1       a     2 1.20 2.90 0.1 5.3
## 3  2020       N1       a     3 1.30 3.00 0.3 5.6
## 4  2020       N1       b     1 1.08 1.72 1.8 2.8
## 5  2020       N1       b     2 1.05 1.65 1.7 2.5
## 6  2020       N1       b     3 1.15 1.35 1.5 3.1
## 7  2020       N2       a     1 1.32 3.78 1.6 6.0
## 8  2020       N2       a     2 1.28 4.32 1.4 6.1
## 9  2020       N2       a     3 1.35 3.95 1.3 6.2
## 10 2020       N2       b     1 1.33 3.47 2.8 4.1
## 11 2020       N2       b     2 1.28 2.72 2.4 4.3
## 12 2020       N2       b     3 1.30 3.90 2.2 4.5
## 13 2021       N1       a     1 1.19 3.61 0.8 6.0
## 14 2021       N1       a     2 1.21 3.29 0.5 5.7
## 15 2021       N1       a     3 1.24 3.26 0.7 5.6
## 16 2021       N1       b     1 1.09 2.71 1.8 4.0
## 17 2021       N1       b     2 1.28 2.32 1.6 4.2
## 18 2021       N1       b     3 1.35 1.95 1.3 4.3
## 19 2021       N2       a     1 1.45 4.35 1.8 7.2
## 20 2021       N2       a     2 1.40 3.80 1.2 7.0
## 21 2021       N2       a     3 1.37 4.23 1.6 6.8
## 22 2021       N2       b     1 1.28 2.72 2.4 5.1
## 23 2021       N2       b     2 1.15 3.35 2.5 5.5
## 24 2021       N2       b     3 1.24 3.46 2.7 4.9

用data.frame()来实现。

data.frame(df_bc1, df_bc2) # 通过data.frame重新构建数据框来合并。
##    year nitrogen variety block   v1   v2  v3  v4
## 1  2020       N1       a     1 1.26 2.14 0.4 5.0
## 2  2020       N1       a     2 1.20 2.90 0.1 5.3
## 3  2020       N1       a     3 1.30 3.00 0.3 5.6
## 4  2020       N1       b     1 1.08 1.72 1.8 2.8
## 5  2020       N1       b     2 1.05 1.65 1.7 2.5
## 6  2020       N1       b     3 1.15 1.35 1.5 3.1
## 7  2020       N2       a     1 1.32 3.78 1.6 6.0
## 8  2020       N2       a     2 1.28 4.32 1.4 6.1
## 9  2020       N2       a     3 1.35 3.95 1.3 6.2
## 10 2020       N2       b     1 1.33 3.47 2.8 4.1
## 11 2020       N2       b     2 1.28 2.72 2.4 4.3
## 12 2020       N2       b     3 1.30 3.90 2.2 4.5
## 13 2021       N1       a     1 1.19 3.61 0.8 6.0
## 14 2021       N1       a     2 1.21 3.29 0.5 5.7
## 15 2021       N1       a     3 1.24 3.26 0.7 5.6
## 16 2021       N1       b     1 1.09 2.71 1.8 4.0
## 17 2021       N1       b     2 1.28 2.32 1.6 4.2
## 18 2021       N1       b     3 1.35 1.95 1.3 4.3
## 19 2021       N2       a     1 1.45 4.35 1.8 7.2
## 20 2021       N2       a     2 1.40 3.80 1.2 7.0
## 21 2021       N2       a     3 1.37 4.23 1.6 6.8
## 22 2021       N2       b     1 1.28 2.72 2.4 5.1
## 23 2021       N2       b     2 1.15 3.35 2.5 5.5
## 24 2021       N2       b     3 1.24 3.46 2.7 4.9

通过merge()函数来实现。

df_bc3 <- df[, 1:6] # 取df数据6到8列作为列合并数据bc3。
df_bc3 # 查看数据集df_bc3。
## # A tibble: 24 x 6
##     year nitrogen variety block    v1    v2
##    <dbl> <chr>    <chr>   <dbl> <dbl> <dbl>
##  1  2020 N1       a           1  1.26  2.14
##  2  2020 N1       a           2  1.2   2.9 
##  3  2020 N1       a           3  1.3   3   
##  4  2020 N1       b           1  1.08  1.72
##  5  2020 N1       b           2  1.05  1.65
##  6  2020 N1       b           3  1.15  1.35
##  7  2020 N2       a           1  1.32  3.78
##  8  2020 N2       a           2  1.28  4.32
##  9  2020 N2       a           3  1.35  3.95
## 10  2020 N2       b           1  1.33  3.47
## # ... with 14 more rows
merge(df_bc1,df_bc3) # merge函数合并df_bc1和df_bc3,merge函数是通过公共列进行合并。
##    year nitrogen variety block   v1   v2
## 1  2020       N1       a     1 1.26 2.14
## 2  2020       N1       a     2 1.20 2.90
## 3  2020       N1       a     3 1.30 3.00
## 4  2020       N1       b     1 1.08 1.72
## 5  2020       N1       b     2 1.05 1.65
## 6  2020       N1       b     3 1.15 1.35
## 7  2020       N2       a     1 1.32 3.78
## 8  2020       N2       a     2 1.28 4.32
## 9  2020       N2       a     3 1.35 3.95
## 10 2020       N2       b     1 1.33 3.47
## 11 2020       N2       b     2 1.28 2.72
## 12 2020       N2       b     3 1.30 3.90
## 13 2021       N1       a     1 1.19 3.61
## 14 2021       N1       a     2 1.21 3.29
## 15 2021       N1       a     3 1.24 3.26
## 16 2021       N1       b     1 1.09 2.71
## 17 2021       N1       b     2 1.28 2.32
## 18 2021       N1       b     3 1.35 1.95
## 19 2021       N2       a     1 1.45 4.35
## 20 2021       N2       a     2 1.40 3.80
## 21 2021       N2       a     3 1.37 4.23
## 22 2021       N2       b     1 1.28 2.72
## 23 2021       N2       b     2 1.15 3.35
## 24 2021       N2       b     3 1.24 3.46

tidyverse

bind_cols(df_bc1, df_bc2) # 合并列数据。
## # A tibble: 24 x 8
##     year nitrogen variety block    v1    v2    v3    v4
##    <dbl> <chr>    <chr>   <dbl> <dbl> <dbl> <dbl> <dbl>
##  1  2020 N1       a           1  1.26  2.14   0.4   5  
##  2  2020 N1       a           2  1.2   2.9    0.1   5.3
##  3  2020 N1       a           3  1.3   3      0.3   5.6
##  4  2020 N1       b           1  1.08  1.72   1.8   2.8
##  5  2020 N1       b           2  1.05  1.65   1.7   2.5
##  6  2020 N1       b           3  1.15  1.35   1.5   3.1
##  7  2020 N2       a           1  1.32  3.78   1.6   6  
##  8  2020 N2       a           2  1.28  4.32   1.4   6.1
##  9  2020 N2       a           3  1.35  3.95   1.3   6.2
## 10  2020 N2       b           1  1.33  3.47   2.8   4.1
## # ... with 14 more rows

4.2 值匹配合并

左连接、右连接、全连接、内连接、半连接、反连接,前四种连接又称为修改连接,后两种连接又称为过滤连接。函数如下:
left_join(x, y, by) 保留 x 所有行,合并匹配的 y 中的列。
right_join(x, y, by) 保留 y 所有行,合并匹配的 x 中的列。
full_join(x, y, by) 保留 x 和 y 中的所有行,合并匹配的列。
inner_join(x, y, by) 保留两个数据表中所共有的观测:只保留 x 中与 y匹配的行,合并匹配的 y 中的列。
semi_join(x, y, by) 根据在 y 中,来筛选 x 中的行。
anti_join(x, y, by) 根据不在 y 中,来筛选 x 中的行。

df_s1 <- tibble(year=c("2009","2010","2011"), nitrogen=c("120","240","360")) # 构建数据集df_s1。
df_s1 # 查看数据集df_s1。
## # A tibble: 3 x 2
##   year  nitrogen
##   <chr> <chr>   
## 1 2009  120     
## 2 2010  240     
## 3 2011  360
df_s2 <- tibble(year=c("2009","2010","2012"), irrigation=c("100","200","300")) # 构建数据集df_s2。
df_s2 # 查看数据集df_s2。
## # A tibble: 3 x 2
##   year  irrigation
##   <chr> <chr>     
## 1 2009  100       
## 2 2010  200       
## 3 2012  300
left_join(df_s1, df_s2, by = "year") # 左连接。
## # A tibble: 3 x 3
##   year  nitrogen irrigation
##   <chr> <chr>    <chr>     
## 1 2009  120      100       
## 2 2010  240      200       
## 3 2011  360      <NA>

保留了df_s1的所有行,将df_s2的irrigation列引并入df_s1,因为df_s2没有2011年行,所以对应2011的irrigation值为NA。

right_join(df_s1, df_s2, by = "year") # 右连接。
## # A tibble: 3 x 3
##   year  nitrogen irrigation
##   <chr> <chr>    <chr>     
## 1 2009  120      100       
## 2 2010  240      200       
## 3 2012  <NA>     300

保留了df_s2的所有行,将df_s1的nitrogen列并入df_s2,因为df_s1没有2012年行,所以对应2012的nitrogen值为NA。

full_join(df_s1, df_s2, by = "year") # 全连接。
## # A tibble: 4 x 3
##   year  nitrogen irrigation
##   <chr> <chr>    <chr>     
## 1 2009  120      100       
## 2 2010  240      200       
## 3 2011  360      <NA>      
## 4 2012  <NA>     300

保留了df_s1和df_s2的所有行,将df_s1的nitrogen列和df_s2的irrigation列合并入新数据集,因为df_s1没有2012年行,所以对应2012的nitrogen值为NA,因为df_s2没有2011年行,所以对应2011的irrigation值为NA。

inner_join(df_s1, df_s2, by = "year") # 内连接。
## # A tibble: 2 x 3
##   year  nitrogen irrigation
##   <chr> <chr>    <chr>     
## 1 2009  120      100       
## 2 2010  240      200

保留了df_s1和df_s2的公共的行,将df_s1的nitrogen列和df_s2的irrigation列合并入新数据集,列值也是按公共行的值保留。

semi_join(df_s1, df_s2, by = "year") # 半连接。
## # A tibble: 2 x 2
##   year  nitrogen
##   <chr> <chr>   
## 1 2009  120     
## 2 2010  240

连接条件为year,连接时依据条件保留了df_s1在df_s2的公共部分。

anti_join(df_s1, df_s2, by = "year") # 反连接。
## # A tibble: 1 x 2
##   year  nitrogen
##   <chr> <chr>   
## 1 2011  360

连接条件为year,连接时依据条件保留了df_s1不属于df_s2公共部分的部分。

参考资料

  1. R语言编程—基于 tidyverse,人民邮电出版社(待出版),2022.
  2. R语言教程,李东风,https://www.math.pku.edu.cn/teachers/lidf/docs/Rbook/html/_Rbook/index.html
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,254评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,875评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,682评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,896评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,015评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,152评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,208评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,962评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,388评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,700评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,867评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,551评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,186评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,901评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,142评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,689评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,757评论 2 351

推荐阅读更多精彩内容