数据准备
本示例数据是自编数据,仅为练习所用,数据结构假设为,两个年份year(2020,2021),两个氮水平nitrogen(N1,N2),两个玉米品种variety(a,b)测定了5个试验指标(变量v1,v2,v3,v4,v5),每个处理3次重复block(1,2,3)。
library(tidyverse) # 调用tidyverse。
## -- Attaching packages --------------------------------------- tidyverse 1.3.1 --
## v ggplot2 3.3.5 v purrr 0.3.4
## v tibble 3.1.6 v dplyr 1.0.8
## v tidyr 1.2.0 v stringr 1.4.0
## v readr 2.1.2 v forcats 0.5.1
## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
df <- read_csv(file = "df.csv") # 导入数据。文档在工作目录下,所以直接给文件名导入。
## Rows: 24 Columns: 9
## -- Column specification --------------------------------------------------------
## Delimiter: ","
## chr (2): nitrogen, variety
## dbl (7): year, block, v1, v2, v3, v4, v5
##
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.
df # 查看数据。
## # A tibble: 24 x 9
## year nitrogen variety block v1 v2 v3 v4 v5
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 2020 N1 a 1 1.26 2.14 0.4 5 3.25
## 2 2020 N1 a 2 1.2 2.9 0.1 5.3 1.27
## 3 2020 N1 a 3 1.3 3 0.3 5.6 2.24
## 4 2020 N1 b 1 1.08 1.72 1.8 2.8 1
## 5 2020 N1 b 2 1.05 1.65 1.7 2.5 3.12
## 6 2020 N1 b 3 1.15 1.35 1.5 3.1 4.57
## 7 2020 N2 a 1 1.32 3.78 1.6 6 5.85
## 8 2020 N2 a 2 1.28 4.32 1.4 6.1 6.48
## 9 2020 N2 a 3 1.35 3.95 1.3 6.2 7.21
## 10 2020 N2 b 1 1.33 3.47 2.8 4.1 6.56
## # ... with 14 more rows
4.数据连接
4.1 行列合并
合并行:前提条件为列名相同,否则作为新列(NA填充),原数据下方堆叠新行,规则是根据列名匹配;
合并列:前提条件为行数相同,原数据右侧拼接新列,规则为根据位置匹配行。
4.1.1 按行合并数据
先创建示例数据集。
df_br1 <- df[1:5,] # 取df数据1到5行作为行合并数据br1。
df_br1 # 查看数据集df_br1。
## # A tibble: 5 x 9
## year nitrogen variety block v1 v2 v3 v4 v5
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 2020 N1 a 1 1.26 2.14 0.4 5 3.25
## 2 2020 N1 a 2 1.2 2.9 0.1 5.3 1.27
## 3 2020 N1 a 3 1.3 3 0.3 5.6 2.24
## 4 2020 N1 b 1 1.08 1.72 1.8 2.8 1
## 5 2020 N1 b 2 1.05 1.65 1.7 2.5 3.12
df_br2 <- df[12:16,] # 取df数据12到18行作为行合并数据br2。
df_br2 # 查看数据集df_br2。
## # A tibble: 5 x 9
## year nitrogen variety block v1 v2 v3 v4 v5
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 2020 N2 b 3 1.3 3.9 2.2 4.5 7.55
## 2 2021 N1 a 1 1.19 3.61 0.8 6 3.11
## 3 2021 N1 a 2 1.21 3.29 0.5 5.7 2.54
## 4 2021 N1 a 3 1.24 3.26 0.7 5.6 1.28
## 5 2021 N1 b 1 1.09 2.71 1.8 4 3.24
Base R
在R基础包中通过rbind()实现。
rbind(df_br1, df_br2) # 行合并。
## # A tibble: 10 x 9
## year nitrogen variety block v1 v2 v3 v4 v5
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 2020 N1 a 1 1.26 2.14 0.4 5 3.25
## 2 2020 N1 a 2 1.2 2.9 0.1 5.3 1.27
## 3 2020 N1 a 3 1.3 3 0.3 5.6 2.24
## 4 2020 N1 b 1 1.08 1.72 1.8 2.8 1
## 5 2020 N1 b 2 1.05 1.65 1.7 2.5 3.12
## 6 2020 N2 b 3 1.3 3.9 2.2 4.5 7.55
## 7 2021 N1 a 1 1.19 3.61 0.8 6 3.11
## 8 2021 N1 a 2 1.21 3.29 0.5 5.7 2.54
## 9 2021 N1 a 3 1.24 3.26 0.7 5.6 1.28
## 10 2021 N1 b 1 1.09 2.71 1.8 4 3.24
还可以用merge函数
merge(df_br1, df_br2, all = T) # merge函数行合并。
## year nitrogen variety block v1 v2 v3 v4 v5
## 1 2020 N1 a 1 1.26 2.14 0.4 5.0 3.25
## 2 2020 N1 a 2 1.20 2.90 0.1 5.3 1.27
## 3 2020 N1 a 3 1.30 3.00 0.3 5.6 2.24
## 4 2020 N1 b 1 1.08 1.72 1.8 2.8 1.00
## 5 2020 N1 b 2 1.05 1.65 1.7 2.5 3.12
## 6 2020 N2 b 3 1.30 3.90 2.2 4.5 7.55
## 7 2021 N1 a 1 1.19 3.61 0.8 6.0 3.11
## 8 2021 N1 a 2 1.21 3.29 0.5 5.7 2.54
## 9 2021 N1 a 3 1.24 3.26 0.7 5.6 1.28
## 10 2021 N1 b 1 1.09 2.71 1.8 4.0 3.24
注:merge(x, y, by = intersect(names(x), names(y)),
by.x = by, by.y = by, all = FALSE,
all.x = all, all.y = all,
sort = TRUE, suffixes = c(".x",".y"),
incomparables = NULL, ...)
x,y:指定合并的两个数据框;
by,by.x,by.y:指定依据哪些行合并数据框,默认值为相同列名的列;
all,all.x,all.y:指定x和y的行是否应该全在输出文件中;
sort:by指定的列是否要排序;
suffixes:指定除by外相同列名的后缀;
incomparables:指定by中哪些单元不进行合并。
tidyverse
library(tidyverse) # 调用tidyverse。
bind_rows(df_br1, df_br2) # 合并行数据。
## # A tibble: 10 x 9
## year nitrogen variety block v1 v2 v3 v4 v5
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 2020 N1 a 1 1.26 2.14 0.4 5 3.25
## 2 2020 N1 a 2 1.2 2.9 0.1 5.3 1.27
## 3 2020 N1 a 3 1.3 3 0.3 5.6 2.24
## 4 2020 N1 b 1 1.08 1.72 1.8 2.8 1
## 5 2020 N1 b 2 1.05 1.65 1.7 2.5 3.12
## 6 2020 N2 b 3 1.3 3.9 2.2 4.5 7.55
## 7 2021 N1 a 1 1.19 3.61 0.8 6 3.11
## 8 2021 N1 a 2 1.21 3.29 0.5 5.7 2.54
## 9 2021 N1 a 3 1.24 3.26 0.7 5.6 1.28
## 10 2021 N1 b 1 1.09 2.71 1.8 4 3.24
4.1.2 按列合并数据
创建示例数据集。
df_bc1 <- df[, 1:5] # 取df数据1到5列作为列合并数据bc1。
df_bc1 # 查看数据集df_bc1。
## # A tibble: 24 x 5
## year nitrogen variety block v1
## <dbl> <chr> <chr> <dbl> <dbl>
## 1 2020 N1 a 1 1.26
## 2 2020 N1 a 2 1.2
## 3 2020 N1 a 3 1.3
## 4 2020 N1 b 1 1.08
## 5 2020 N1 b 2 1.05
## 6 2020 N1 b 3 1.15
## 7 2020 N2 a 1 1.32
## 8 2020 N2 a 2 1.28
## 9 2020 N2 a 3 1.35
## 10 2020 N2 b 1 1.33
## # ... with 14 more rows
df_bc2 <- df[, 6:8] # 取df数据6到8列作为列合并数据bc2。
df_bc2 # 查看数据集df_bc2。
## # A tibble: 24 x 3
## v2 v3 v4
## <dbl> <dbl> <dbl>
## 1 2.14 0.4 5
## 2 2.9 0.1 5.3
## 3 3 0.3 5.6
## 4 1.72 1.8 2.8
## 5 1.65 1.7 2.5
## 6 1.35 1.5 3.1
## 7 3.78 1.6 6
## 8 4.32 1.4 6.1
## 9 3.95 1.3 6.2
## 10 3.47 2.8 4.1
## # ... with 14 more rows
Base R
基础包中的cbind()函数可实现列数据连接。
cbind(df_bc1, df_bc2) # cbind合并df_bc1和df_bc2,cbind是直接列合并。
## year nitrogen variety block v1 v2 v3 v4
## 1 2020 N1 a 1 1.26 2.14 0.4 5.0
## 2 2020 N1 a 2 1.20 2.90 0.1 5.3
## 3 2020 N1 a 3 1.30 3.00 0.3 5.6
## 4 2020 N1 b 1 1.08 1.72 1.8 2.8
## 5 2020 N1 b 2 1.05 1.65 1.7 2.5
## 6 2020 N1 b 3 1.15 1.35 1.5 3.1
## 7 2020 N2 a 1 1.32 3.78 1.6 6.0
## 8 2020 N2 a 2 1.28 4.32 1.4 6.1
## 9 2020 N2 a 3 1.35 3.95 1.3 6.2
## 10 2020 N2 b 1 1.33 3.47 2.8 4.1
## 11 2020 N2 b 2 1.28 2.72 2.4 4.3
## 12 2020 N2 b 3 1.30 3.90 2.2 4.5
## 13 2021 N1 a 1 1.19 3.61 0.8 6.0
## 14 2021 N1 a 2 1.21 3.29 0.5 5.7
## 15 2021 N1 a 3 1.24 3.26 0.7 5.6
## 16 2021 N1 b 1 1.09 2.71 1.8 4.0
## 17 2021 N1 b 2 1.28 2.32 1.6 4.2
## 18 2021 N1 b 3 1.35 1.95 1.3 4.3
## 19 2021 N2 a 1 1.45 4.35 1.8 7.2
## 20 2021 N2 a 2 1.40 3.80 1.2 7.0
## 21 2021 N2 a 3 1.37 4.23 1.6 6.8
## 22 2021 N2 b 1 1.28 2.72 2.4 5.1
## 23 2021 N2 b 2 1.15 3.35 2.5 5.5
## 24 2021 N2 b 3 1.24 3.46 2.7 4.9
用data.frame()来实现。
data.frame(df_bc1, df_bc2) # 通过data.frame重新构建数据框来合并。
## year nitrogen variety block v1 v2 v3 v4
## 1 2020 N1 a 1 1.26 2.14 0.4 5.0
## 2 2020 N1 a 2 1.20 2.90 0.1 5.3
## 3 2020 N1 a 3 1.30 3.00 0.3 5.6
## 4 2020 N1 b 1 1.08 1.72 1.8 2.8
## 5 2020 N1 b 2 1.05 1.65 1.7 2.5
## 6 2020 N1 b 3 1.15 1.35 1.5 3.1
## 7 2020 N2 a 1 1.32 3.78 1.6 6.0
## 8 2020 N2 a 2 1.28 4.32 1.4 6.1
## 9 2020 N2 a 3 1.35 3.95 1.3 6.2
## 10 2020 N2 b 1 1.33 3.47 2.8 4.1
## 11 2020 N2 b 2 1.28 2.72 2.4 4.3
## 12 2020 N2 b 3 1.30 3.90 2.2 4.5
## 13 2021 N1 a 1 1.19 3.61 0.8 6.0
## 14 2021 N1 a 2 1.21 3.29 0.5 5.7
## 15 2021 N1 a 3 1.24 3.26 0.7 5.6
## 16 2021 N1 b 1 1.09 2.71 1.8 4.0
## 17 2021 N1 b 2 1.28 2.32 1.6 4.2
## 18 2021 N1 b 3 1.35 1.95 1.3 4.3
## 19 2021 N2 a 1 1.45 4.35 1.8 7.2
## 20 2021 N2 a 2 1.40 3.80 1.2 7.0
## 21 2021 N2 a 3 1.37 4.23 1.6 6.8
## 22 2021 N2 b 1 1.28 2.72 2.4 5.1
## 23 2021 N2 b 2 1.15 3.35 2.5 5.5
## 24 2021 N2 b 3 1.24 3.46 2.7 4.9
通过merge()函数来实现。
df_bc3 <- df[, 1:6] # 取df数据6到8列作为列合并数据bc3。
df_bc3 # 查看数据集df_bc3。
## # A tibble: 24 x 6
## year nitrogen variety block v1 v2
## <dbl> <chr> <chr> <dbl> <dbl> <dbl>
## 1 2020 N1 a 1 1.26 2.14
## 2 2020 N1 a 2 1.2 2.9
## 3 2020 N1 a 3 1.3 3
## 4 2020 N1 b 1 1.08 1.72
## 5 2020 N1 b 2 1.05 1.65
## 6 2020 N1 b 3 1.15 1.35
## 7 2020 N2 a 1 1.32 3.78
## 8 2020 N2 a 2 1.28 4.32
## 9 2020 N2 a 3 1.35 3.95
## 10 2020 N2 b 1 1.33 3.47
## # ... with 14 more rows
merge(df_bc1,df_bc3) # merge函数合并df_bc1和df_bc3,merge函数是通过公共列进行合并。
## year nitrogen variety block v1 v2
## 1 2020 N1 a 1 1.26 2.14
## 2 2020 N1 a 2 1.20 2.90
## 3 2020 N1 a 3 1.30 3.00
## 4 2020 N1 b 1 1.08 1.72
## 5 2020 N1 b 2 1.05 1.65
## 6 2020 N1 b 3 1.15 1.35
## 7 2020 N2 a 1 1.32 3.78
## 8 2020 N2 a 2 1.28 4.32
## 9 2020 N2 a 3 1.35 3.95
## 10 2020 N2 b 1 1.33 3.47
## 11 2020 N2 b 2 1.28 2.72
## 12 2020 N2 b 3 1.30 3.90
## 13 2021 N1 a 1 1.19 3.61
## 14 2021 N1 a 2 1.21 3.29
## 15 2021 N1 a 3 1.24 3.26
## 16 2021 N1 b 1 1.09 2.71
## 17 2021 N1 b 2 1.28 2.32
## 18 2021 N1 b 3 1.35 1.95
## 19 2021 N2 a 1 1.45 4.35
## 20 2021 N2 a 2 1.40 3.80
## 21 2021 N2 a 3 1.37 4.23
## 22 2021 N2 b 1 1.28 2.72
## 23 2021 N2 b 2 1.15 3.35
## 24 2021 N2 b 3 1.24 3.46
tidyverse
bind_cols(df_bc1, df_bc2) # 合并列数据。
## # A tibble: 24 x 8
## year nitrogen variety block v1 v2 v3 v4
## <dbl> <chr> <chr> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 2020 N1 a 1 1.26 2.14 0.4 5
## 2 2020 N1 a 2 1.2 2.9 0.1 5.3
## 3 2020 N1 a 3 1.3 3 0.3 5.6
## 4 2020 N1 b 1 1.08 1.72 1.8 2.8
## 5 2020 N1 b 2 1.05 1.65 1.7 2.5
## 6 2020 N1 b 3 1.15 1.35 1.5 3.1
## 7 2020 N2 a 1 1.32 3.78 1.6 6
## 8 2020 N2 a 2 1.28 4.32 1.4 6.1
## 9 2020 N2 a 3 1.35 3.95 1.3 6.2
## 10 2020 N2 b 1 1.33 3.47 2.8 4.1
## # ... with 14 more rows
4.2 值匹配合并
左连接、右连接、全连接、内连接、半连接、反连接,前四种连接又称为修改连接,后两种连接又称为过滤连接。函数如下:
left_join(x, y, by) 保留 x 所有行,合并匹配的 y 中的列。
right_join(x, y, by) 保留 y 所有行,合并匹配的 x 中的列。
full_join(x, y, by) 保留 x 和 y 中的所有行,合并匹配的列。
inner_join(x, y, by) 保留两个数据表中所共有的观测:只保留 x 中与 y匹配的行,合并匹配的 y 中的列。
semi_join(x, y, by) 根据在 y 中,来筛选 x 中的行。
anti_join(x, y, by) 根据不在 y 中,来筛选 x 中的行。
df_s1 <- tibble(year=c("2009","2010","2011"), nitrogen=c("120","240","360")) # 构建数据集df_s1。
df_s1 # 查看数据集df_s1。
## # A tibble: 3 x 2
## year nitrogen
## <chr> <chr>
## 1 2009 120
## 2 2010 240
## 3 2011 360
df_s2 <- tibble(year=c("2009","2010","2012"), irrigation=c("100","200","300")) # 构建数据集df_s2。
df_s2 # 查看数据集df_s2。
## # A tibble: 3 x 2
## year irrigation
## <chr> <chr>
## 1 2009 100
## 2 2010 200
## 3 2012 300
left_join(df_s1, df_s2, by = "year") # 左连接。
## # A tibble: 3 x 3
## year nitrogen irrigation
## <chr> <chr> <chr>
## 1 2009 120 100
## 2 2010 240 200
## 3 2011 360 <NA>
保留了df_s1的所有行,将df_s2的irrigation列引并入df_s1,因为df_s2没有2011年行,所以对应2011的irrigation值为NA。
right_join(df_s1, df_s2, by = "year") # 右连接。
## # A tibble: 3 x 3
## year nitrogen irrigation
## <chr> <chr> <chr>
## 1 2009 120 100
## 2 2010 240 200
## 3 2012 <NA> 300
保留了df_s2的所有行,将df_s1的nitrogen列并入df_s2,因为df_s1没有2012年行,所以对应2012的nitrogen值为NA。
full_join(df_s1, df_s2, by = "year") # 全连接。
## # A tibble: 4 x 3
## year nitrogen irrigation
## <chr> <chr> <chr>
## 1 2009 120 100
## 2 2010 240 200
## 3 2011 360 <NA>
## 4 2012 <NA> 300
保留了df_s1和df_s2的所有行,将df_s1的nitrogen列和df_s2的irrigation列合并入新数据集,因为df_s1没有2012年行,所以对应2012的nitrogen值为NA,因为df_s2没有2011年行,所以对应2011的irrigation值为NA。
inner_join(df_s1, df_s2, by = "year") # 内连接。
## # A tibble: 2 x 3
## year nitrogen irrigation
## <chr> <chr> <chr>
## 1 2009 120 100
## 2 2010 240 200
保留了df_s1和df_s2的公共的行,将df_s1的nitrogen列和df_s2的irrigation列合并入新数据集,列值也是按公共行的值保留。
semi_join(df_s1, df_s2, by = "year") # 半连接。
## # A tibble: 2 x 2
## year nitrogen
## <chr> <chr>
## 1 2009 120
## 2 2010 240
连接条件为year,连接时依据条件保留了df_s1在df_s2的公共部分。
anti_join(df_s1, df_s2, by = "year") # 反连接。
## # A tibble: 1 x 2
## year nitrogen
## <chr> <chr>
## 1 2011 360
连接条件为year,连接时依据条件保留了df_s1不属于df_s2公共部分的部分。
参考资料
- R语言编程—基于 tidyverse,人民邮电出版社(待出版),2022.
- R语言教程,李东风,https://www.math.pku.edu.cn/teachers/lidf/docs/Rbook/html/_Rbook/index.html