dplyr1.0.0 重点内容 across()、slice_*()、nest_by()、mutate(.keep, .names, .before, .after)、rowwise()、rel...


title: "dplyr1.0.0 重点内容"
author: "qliu"
date: "2020/6/5"
output: html_document


翻译链接为:
My Favorite dplyr 1.0.0 Features

加载包和数据

# install.packages("AmesHousing")
library(AmesHousing)
library(tidyverse)

ames_data <- make_ames() %>%
  janitor::clean_names() %>%
  select(sale_price, bsmt_fin_sf_1, first_flr_sf, 
         total_bsmt_sf, neighborhood, gr_liv_area)

head(ames_data)

across()


所有 *_if()、 *_at()、 *_all() 变体函数都已经被 across() 函数所取代,使得所有列进行相同操作更为便捷。

# 构造函数

feet_to_yards <- function(x) {x / 9}

# 之前版本的 mutate_at() 函数

ames_data %>%
  mutate_at(.vars = vars(contains("_sf") | contains("area")) , .funs = feet_to_yards)


# across() 函数实现
ames_data %>%
  mutate(across(.cols = c(contains("_sf") | contains("area")) , .funs = feet_to_yards)) %>%
  head()

across(where()) 取代 mutate_if()

ames_data %>% 
  mutate_if(is.numeric, log)

ames_data %>% 
  mutate(across(where(is.numeric), log)) %>%
  head()

across(where())summarise() 函数

summarise() 函数中参数 .names = "mean_{col}" 可以指定新增的列名,比如这里为函数 mean + 原本列名

ames_data %>%
  group_by(neighborhood) %>%
  summarise(across(where(is.numeric), mean, .names = "mean_{col}")) %>%
  head()
ames_data %>%
  mutate(across(where(is.integer) & ends_with("_sf"), as.double))

我们可以看到非 integer 且 不是以 _sf 结尾的列,并没有转变为 double 数据类型,比如:gr_liv_area 列虽然为 integer 但是处理后仍为 double

across(everything()) 取代 mutate_all()

... 等等

slice()

top_n()、 sample_n()、 sample_frac() 这三个函数已经被 slice 新增的子函数所替代

不推荐继续使用这三个函数的原因

  • top_n():有一个令人困惑的名称,可以合理地认为它过滤了最小或最大的行。比如,我们有田径赛记录圈数的数据。我们可以合理地假设 top_n() 返回的时间是最快的,但实际上它们返回的时间是最长的。top_n() 已被 slice_min()slice_max() 取代。

  • sample_n()sample_frac():被整合到函数 slice_sample() 一个中,分别被参数 slice_sample(n=4)slice_sample(prop = 0.002) 取代,更容易记住。

此外,slice_head()slice_tail() 可以提取数据第一行和最后一行

ames_data %>% 
  top_n(n = 5, wt = sale_price)
#->
ames_data %>% 
  slice_max(sale_price, n = 5)
#->
ames_data %>% 
  slice_min(sale_price, n = 5)

#########################################
ames_data %>% 
  sample_n(4)
# ->
ames_data %>% 
  slice_sample(n = 4)

#########################################
ames_data %>% 
  sample_frac(0.002)
#->
ames_data %>% 
  slice_sample(prop = 0.002)

nest_by()

nest_by() 与函数 group_by() 类似,只是 nest_by() 分组后每一组存储为一个 list 文件。

group_by() + summarise()

ames_data %>%
  group_by(neighborhood) %>%
  summarise(avg_sale_price = mean(sale_price)) %>%
  ungroup() %>%
  head()

summarise() 常常与 group_by() 连用,特别是在统计函数的输出是单个数值的情况下。但是如果我们想对分组的行执行更复杂的操作呢? 比如线性模型。为此,我们可以使用 nest_by(),它将分组的数据存储为名为 data 的新列中的列表,而不是元数据。

nested_ames <- ames_data %>%
  nest_by(neighborhood) 

head(nested_ames)

我们可以看到,与 group_by() 函数不同,nest_by() 是改变了原来数据得数据结构。当我们希望将模型应用于嵌套数据的每一行时,此功能非常有用。

nested_ames_with_model <- nested_ames %>%
  mutate(linear_model = list(lm(sale_price ~ gr_liv_area, data = data)))

head(nested_ames_with_model)

需要注意的是,模型必须向量化,这是使用 list() 执行的转换。

north_ames_model <- nested_ames_with_model %>%
  filter(neighborhood == "North_Ames") %>%
  pull(linear_model)

north_ames_model

该模型显示,每增加一平方英尺,位于埃姆斯北部社区的一套房子预计将多卖 54.61 美元。

mutate() 函数中新增的参数

  • .keep

可以看到输出结果中,仅保存了所有到的列,而非之前输出所有列,有点类似与 tranmute() 函数

ames_data %>% 
  mutate(sale_price_euro = sale_price / 1.1, .keep = "used") %>% 
  head()
  • .before.after

控制新增列的排放位置

ames_data %>% 
  mutate(
    sale_price_euro = sale_price / 1.1, .keep = "used", .before = sale_price
  ) %>% 
  head()

总结:

两个主要的变化是添加了 across()slice(),它们取代了旧的功能。使用 across() 可以很容易地以更直观、更一致的方式改变特定的列或行。slice() 对数据采样方法进行了类似的改进。新的 nest_by() 功能使得一些统计建模函数更加方便。另外此文这里没有列出的 rowwise() 函数结合 c_across() 可以使我们在 R 中对数据行水平层次进行操作更加方便,relocate() 函数能够使我们更加方便的控制感兴趣的列的顺序的调整,rename() 函数新增使用函数重新命名列名,总之这一次更新对于在 R 中进行数据更方便,看代码更为简明易懂。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,463评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,868评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,213评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,666评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,759评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,725评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,716评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,484评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,928评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,233评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,393评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,073评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,718评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,308评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,538评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,338评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,260评论 2 352