12.管道

1 简介

管道能够清晰的表达多步操作过程。那么管道到底是如何工作的呢?有哪些方法可以替代管道呢?在什么情况下不能使用管道呢?接下来我们将一步步讨论。

1.1 加载包

管道符:%>%是来自Stefan Milton Bache的magrittr包。tidyverse 中的包%>%会自动加载,因此我们不需要加载 magrittr。为了突出管道来源的包,我们先加载它。

library(magrittr)

2 管道替代方案

管道的目的是帮助您以更易于阅读和理解编写的代码。为了了解管道为何如此有用,通过编写多种相同代码来比较。下面来看一个关于一只名叫 Foo Foo 的小兔子的故事:

Little bunny Foo Foo
Went hopping through the forest
Scooping up the field mice
And bopping them on the head

这是一首英语流行儿童诗。

我们将首先定义一个对象来代表小兔子 Foo Foo:

foo_foo <- little_bunny()

我们将为每个关键动作使用一个函数:hop()、scoop()和bop()。使用这个对象和这些动做,我们可以(至少)有四种方式在代码中复述这个故事:

  1. 将每个中间步骤保存为一个新对象。
  2. 多次覆盖原始对象。
  3. 编写函数。
  4. 使用管道。

我们将研究每种方法,展示代码优缺点。

2.1 中间步骤

最简单的方法是将每个步骤保存为一个新对象:

foo_foo_1 <- hop(foo_foo, through = forest)
foo_foo_2 <- scoop(foo_foo_1, up = field_mice)
foo_foo_3 <- bop(foo_foo_2, on = head)

这种方法的的主要缺点是你必须为每个中间元素命名。

实际的数据管道操作,我们在其中添加了一个新列ggplot2::diamonds

diamonds <- ggplot2::diamonds
diamonds2 <- diamonds %>% 
  dplyr::mutate(price_per_carat = price / carat)

pryr::object_size(diamonds)
#> Registered S3 method overwritten by 'pryr':
#>   method      from
#>   print.bytes Rcpp
#> 3.46 MB
pryr::object_size(diamonds2)
#> 3.89 MB
pryr::object_size(diamonds, diamonds2)
#> 3.89 MB

pryr::object_size()给出其所有参数占用的内存。然而一看结果觉得不可思议:

  • diamonds 占用 3.46 MB,
  • diamonds2 占用 3.89 MB,
  • diamondsdiamonds2一起占用 3.89 MB!

这是怎么回事呢?diamonds2diamonds有 10 列: 没有必要复制所有数据,所以两个数据框拥有共同的变量。如果修改其中一个变量,这个变量会被复制。在下面例子中,修改了diamonds$carat. 这意味着carat变量不能再在两个数据帧之间共享,必须进行复制。每个数据帧的大小不变,但集体大小增加:

diamonds$carat[1] <- NA
pryr::object_size(diamonds)
#> 3.46 MB
pryr::object_size(diamonds2)
#> 3.89 MB
pryr::object_size(diamonds, diamonds2)
#> 4.32 MB

2.2 覆盖对象

我们可以直接覆盖原始对象,而需要在每一步都创建中间对象:

foo_foo <- hop(foo_foo, through = forest)
foo_foo <- scoop(foo_foo, up = field_mice)
foo_foo <- bop(foo_foo, on = head)

这是更少的打字(和更少的思考),所以你不太可能犯错误。但是,有两个问题:

  1. 不方便调试:如果你某一步出现了错误,你需要从头开始重新运行 。

  2. 对象名重复使用(我们已经写了foo_foo六次!)掩盖了每一行的变化。

2.3 构造函数

直接合并函数调用:

bop(
  scoop(
    hop(foo_foo, through = forest),
    up = field_mice
  ), 
  on = head
)

这里的缺点是你必须从里到外,从右到左阅读,代码阅读起来困难。

2.4 使用管道

最后,我们可以使用管道:

foo_foo %>%
  hop(through = forest) %>%
  scoop(up = field_mice) %>%
  bop(on = head)

这是我最喜欢的形式,因为它侧重于每一步操作,可以直接阅读这一系列的函数组合,就像它是一组命令式操作。Foo Foo ,hop,scoop,最后是bops。

管道通过执行“词法转换”来工作:在实际运行时,magrittr将管道中的代码重组为一种形式,这种形式通过覆盖一个中间对象来工作。当你运行一个像上面这样的管道时,magrittr会这样做:

my_pipe <- function(.) {
  . <- hop(., through = forest)
  . <- scoop(., up = field_mice)
  bop(., on = head)
}
my_pipe(foo_foo)

这意味着管道不适用于两类函数:

  1. 使用当前环境的函数。例如,assign() 在当前环境中创建一个具有给定名称的新变量:

    assign("x", 10)
    x
    #> [1] 10
    
    "x" %>% assign(100)
    x
    #> [1] 10
    

    对管道使用 assign 不起作用,因为它将管道分配给由%>%使用的临时环境。 如果您确实想对管道使用assign,则必须明确说明环境:

    env <- environment()
    "x" %>% assign(100, envir = env)
    x
    #> [1] 100
    

get()load()函数也存在这样的问题。

  1. 使用惰性求值的函数。在 R 中,函数参数只在函数使用时计算,而不是在调用函数之前。管道依次计算每个元素,因此您不能依赖此行为。

    在使用tryCatch()是也会出现问题,它可以抓取捕获和处理错误:

    tryCatch(stop("!"), error = function(e) "An error")
    #> [1] "An error"
    
    stop("!") %>% 
      tryCatch(error = function(e) "An error")
    #> Error in eval(lhs, parent, parent): !
    

具有这种行为的函数类相对广泛,包括基R中的try()suppressMessages()suppressWarnings()

3 何时不使用管道

管道是一个强大的工具,但它不是你可以使用的唯一工具,也不能解决所有问题!管道对于重写相当短的线性操作序列最有用。在以下情况下建议使用另一种工具:

  • 你的管道比(比如说)十步长。在这种情况下,创建具有有意义名称的中间对象。这将使调试更容易,因为您可以更轻松地检查中间结果,并且更容易理解代码,因为变量名称可以帮助传达意图。

  • 有多个输入或输出。如果没有变换一个主要对象,而是将两个或多个对象组合在一起,则不要使用管道。

  • 考虑具有复杂依赖结构的有向图。管道基本上是线性的,表达与它们的复杂关系通常会产生令人困惑的代码。

18.4 magrittr 的其他工具

magrittr 包中的其他一些有用工具有哪些呢?

  • 当使用更复杂的管道时,有时调用一个函数来处理它的副作用是很有用的。也许您想打印出当前对象,或绘制它,或将其保存到磁盘。很多时候,这样的函数不返回任何东西,有效地终止了管道。

为了解决这个问题,可以使用“tee”管道。%T>%%>%类似,不同的是%T>%返回左边而不是右边。它被称为“tee”,因为它就像一个字面上的t形管。

    rnorm(100) %>%
      matrix(ncol = 2) %>%
      plot() %>%
      str()
    #>  NULL

    rnorm(100) %>%
      matrix(ncol = 2) %T>%
      plot() %>%
      str()
    #>  num [1:50, 1:2] -0.387 -0.785 -1.057 -0.796 -1.756 ...
image.png
image.png
  • 如果你使用的函数没有基于数据帧的API(例如,你传递给它们单独的向量,而不是一个数据帧和要在该数据帧上下文中计算的表达式),你可能会发现%$%很有用。它“展开”数据帧中的变量,可以直接引用它们。这在处理以Base R的许多函数时非常有用:

    mtcars %$%
      cor(disp, mpg)
    #> [1] -0.8475514
    
  • 对于赋值,magrittr提供了%<>%操作符,它允许你替换如下代码:

    mtcars <- mtcars %>% 
      transform(cyl = cyl * 2)
    

    mtcars %<>% transform(cyl = cyl * 2)
    

    我不喜欢这个运算符,因为我认为赋值是一种特殊的操作,它在发生时应该总是很清楚。在我看来,一点点重复(即重复两次对象的名称)是可以的,因为可以使分配更加明确。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 193,968评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,682评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,254评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,074评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,964评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,055评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,484评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,170评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,433评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,512评论 2 308
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,296评论 1 325
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,184评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,545评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,150评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,437评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,630评论 2 335

推荐阅读更多精彩内容