DataCamp课程 <用dplyr合并数据> Chapter2. 向左,向右合并

用dplyr合并数据

Chapter1. 合并数据表
Chapter2. 向左,向右合并
Chapter3. 完全合并,半完全合并
Chapter4. 问题实践

Chapter2. 向左,向右合并

left_join向左合并

向左合并left_join,顾名思义,就是向左边的数据集对齐,保留第一个数据集所有的信息。


举个例子,根据"part_num"和"color_id"这两个变量把"millennium_falcon"和"star_destroyer"向左合并。并重命名名字一样的变量。

# Combine the star_destroyer and millennium_falcon tables
millennium_falcon %>%
  left_join(star_destroyer,by=c("part_num","color_id"),
  suffix=c("_falcon","_star_destroyer"))
# A tibble: 263 x 6
   set_num_falcon part_num color_id quantity_falcon set_num_star_de~
   <chr>          <chr>       <dbl>           <dbl> <chr>           
 1 7965-1         63868          71              62 <NA>            
 2 7965-1         3023            0              60 <NA>            
 3 7965-1         3021           72              46 75190-1         
 4 7965-1         2780            0              37 75190-1         
 5 7965-1         60478          72              36 <NA>            
 6 7965-1         6636           71              34 75190-1         
 7 7965-1         3009           71              28 75190-1         
 8 7965-1         3665           71              22 <NA>            
 9 7965-1         2412b          72              20 75190-1         
10 7965-1         3010           71              19 <NA>            
# ... with 253 more rows, and 1 more variable: quantity_star_destroyer <dbl>

接下来的例子稍微复杂点,会结合到别的课程学到的知识。

    1. 根据某个变量分别对两组数据进行描述行统计(用到group_bysummarize)
    1. 合并这两个描述性统计量
# Aggregate Millennium Falcon for the total quantity in each part
millennium_falcon_colors <- millennium_falcon %>%
  group_by(color_id) %>%
  summarize(total_quantity = sum(quantity))

# Aggregate Star Destroyer for the total quantity in each part
star_destroyer_colors <- star_destroyer %>%
  group_by(color_id) %>%
  summarize(total_quantity = sum(quantity))

# Left join the Millennium Falcon colors to the Star Destroyer colors
millennium_falcon_colors %>%
  left_join(star_destroyer_colors,by="color_id",
  suffix=c("_falcon","_star_destroyer"))

下面的例子会用到以前学过的filter。先从数据集inventories里提取出变量"version"是1的数据,然后和第二个数据集sets根据共同变量"set_ num"向左合并。然后提取出数据集inventories里不存在的变量,也就是合并以后"version"显示NA的数据。这里用到了is.na()

inventory_version_1 <- inventories %>%
  filter(version == 1)

# Join versions to sets
sets %>%
  left_join(inventory_version_1,by="set_num") %>%
  # Filter for where version is na
  filter(is.na(version))
# A tibble: 1 x 6
  set_num name       year theme_id    id version
  <chr>   <chr>     <dbl>    <dbl> <dbl>   <dbl>
1 40198-1 Ludo game  2018      598    NA      NA

right_join向右合并


向右合并和向左相反,合并以后保留第二个数据集的所有内容。现举个例子,用count描述变量"part_cat_id"的频度(此时产生一个默认频度变量n)。然后和数据集"part_categories"向右合并。提取出n为NA的数据。
这里用到了之前不同变量名之间的匹配语法by=c("A"="B")

parts %>%
    count(part_cat_id) %>%
    right_join(part_categories, by = c("part_cat_id" = "id")) %>%
    # Filter for NA
    filter(is.na(n))
# A tibble: 1 x 3
  part_cat_id     n name   
        <dbl> <int> <chr>  
1          66    NA Modulex

教程里还介绍了替换NA值得方法。replace_na用0来替换NA。

parts %>%
    count(part_cat_id) %>%
    right_join(part_categories, by = c("part_cat_id" = "id")) %>%
    # Use replace_na to replace missing values in the n column
    replace_na(list(n=0))
# A tibble: 64 x 3
   part_cat_id     n name                   
         <dbl> <dbl> <chr>                  
 1           1   135 Baseplates             
 2           3   303 Bricks Sloped          
 3           4  1900 Duplo, Quatro and Primo
 4           5   107 Bricks Special         
 5           6   128 Bricks Wedged          
 6           7    97 Containers             
 7           8    24 Technic Bricks         
 8           9   167 Plates Special         
 9          11   490 Bricks                 
10          12    85 Technic Connectors     
# ... with 54 more rows
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,417评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,921评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,850评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,945评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,069评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,188评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,239评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,994评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,409评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,735评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,898评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,578评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,205评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,916评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,156评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,722评论 2 363
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,781评论 2 351

推荐阅读更多精彩内容