efficientR笔记|| 四个工具提高R效率、可重复以及健壮性

在这篇文章中，我们介绍免费的工具，可以帮助你的工作变得更有效率，再现和生产。即

data.table
基于Docker映像的Rocker项
基本并行计算包parallel
用于包检查的R-Hub服务。

data.table - R’s unsung powerhouse

在R包生态系统中，我发现最缺乏市场和严重低估价值的一个包是data.table。如果提到它，主要是因为它的速度和内存效率，这当然是理所应当的，但是我觉得忽略它的其他好处和特性是不公平的。

语法简洁

我喜欢data.table的语法简洁和原则驱动。实际上，对于最常见的用例，您所需要做的就是学习使用[]方括号，然后一个充满机会的奇妙世界就会随之而来。下面是一个简单的例子:取两个数据表，将它们连接到它们的公共列上，过滤行，汇总一个按求值表达式分组的变量。

# Prepare the packages and data
library(data.table)
flts <- as.data.table(nycflights13::flights)
wthr <- as.data.table(nycflights13::weather)
byCols <- intersect(names(flts), names(wthr))

# Join, filter, group by and aggregate
wthr[flts, on = byCols][origin == "JFK", mean(dep_delay, na.rm = TRUE), precip > 0]

##    precip       V1
## 1:  FALSE 10.92661
## 2:     NA 13.66543
## 3:   TRUE 29.70753

功能齐全

dcast() and melt() for efficient data reshaping
rbindlist() for fast replacement of do.call("rbind", l)
fsetdiff(), fintersect(), funion() and fsetequal() for fast and easy to use operations on data.tables
rollup(), cube() and groupingsets() to create pivot tables, more on that in a dedicated article

很少依赖其他包

读写csv文件很快

The Rocker project for R-based Docker images

Containerization是一种强大而有用的工具，有许多用途，其中之一是可再现性。在R世界中，确保我们的R库包含我们需要的包的精确版本可以通过使用packrat或它的后继renv等工具来实现。

然而，管理R包版本只能让我们走这么远，尤其是依赖于其他系统依赖项时，比如使用pandoc来呈现R Markdown文档或Java。当我们需要在多个版本的R上测试我们的R应用程序时，如果只使用一个环境，特别是在基于unix的平台上，事情会变得非常繁琐和混乱。

接下来是Rocker项目——R环境的Docker容器。由于Carl Boettiger、Dirk Eddelbuettel和Noam Ross的努力，使用特定版本的R、RStudio甚至tidyverse包旋转容器就像启动终端并运行一样简单

docker run --rm -ti rocker/r-base

docker 对我还是一个比较新的课题，主要是目前并没有docker 的环境。用的比较多的环境管理是conda，有时间在探索一番docker 吧，看起来很好玩的样子。

Base package parallel

R语言的内部是单线程的，这意味着在编写R代码时，除非对数据之类的多线程计算进行优化，一般情况我们的代码将只使用一个线程，即使在日常任务中，这也会对性能造成挑战。特别是现在，即使是常见的、非常便携的ultrabook也带有4个或更多内核和8个或更多线程的处理器。

R生态系统提供了许多利用多线程的方法。在这篇文章中，我想让更多的人看到基本R安装本身的并行化选项，不需要任何额外的外部依赖或包——parallel。

在一个非常小的示例中，让我们看看对于前1000万个数字，对于最长的Collatz序列问题，我们可以多快地执行一个蛮力解决方案。首先，定义一个函数来计算给定整数n的序列长度:

col_len <- function(n) {
  len <- 0L
  while (n > 1) {
    len <- len + 1L
    if ((n %% 2) == 0)
      n <- n / 2
    else {
      n <- (n * 3 + 1) / 2
      len <- len + 1L
    }
  }
  len
}

使用sapply()运行从1到9,999,999的数字的函数，并测量这台平板电脑上的时间，结果显示这个过程大约在580秒内完成——几乎是10分钟:

max(sapply(seq(from = 1, to = 9999999), col_len))

## [1] 8400511

现在我们将使用所有可用的线程在本地机器上创建一个简单的集群(cluster )，并将函数定义发送给所有创建的工作进程:

# Attach the parallel package
library(parallel)
# Create a cluster using all available threads
cl <- makeCluster(detectCores(), methods = FALSE)
# Send the definition of the col_len function to the workers
clusterExport(cl, "col_len")

# Execute in parallel using cluster cl
max(parSapply(cl, seq(from = 1, to = 9999999), col_len))

## [1] 8400511
# Stopping the cluster
stopCluster(cl)

使用所有8个可用线程执行代码并获得相同结果所需的时间减少到约90秒或1.5分钟。因此，使用base R并行地执行您的一些代码，最低限度地调整代码，并使用非常公平的语法，我们可以节省大量时间。

Rhub for fast and automated multi-platform R package testing

R-hub在不同的平台上提供免费的R CMD检查服务。这使R开发人员能够快速有效地检查他们的R包，以确保他们在几个平台上通过了所有必要的检查。作为奖励，检查似乎在很短的时间内运行，这意味着我们可以在几分钟内得到您的结果。

交互式地使用R-hub就像从CRAN安装rhub包一样简单，通过运行rhub::validate_email()来验证您的电子邮件，并运行:

cr <- rhub::check()

在一个交互式会话中，它将提供一个平台列表，供您选择并检查我们的包。

当我们写一个R包的时候总希望他能在所以有的平台上面运行，这时候check就能用了：

> check()   # 这时候我们可以选择一个平台去测试，或者选择多个来测试。

── Choose build platform 

 1: Debian Linux, R-devel, clang, ISO-8859-15 locale (debian-clang-devel)
 2: Debian Linux, R-devel, GCC (debian-gcc-devel)
 3: Debian Linux, R-devel, GCC, no long double (debian-gcc-devel-nold)
 4: Debian Linux, R-patched, GCC (debian-gcc-patched)
 5: Debian Linux, R-release, GCC (debian-gcc-release)
 6: Fedora Linux, R-devel, clang, gfortran (fedora-clang-devel)
 7: Fedora Linux, R-devel, GCC (fedora-gcc-devel)
 8: CentOS 6, stock R from EPEL (linux-x86_64-centos6-epel)
 9: CentOS 6 with Redhat Developer Toolset, R from EPEL (linux-x86_64-centos6-epel-rdt)
10: Debian Linux, R-devel, GCC ASAN/UBSAN (linux-x86_64-rocker-gcc-san)
11: macOS 10.11 El Capitan, R-release (experimental) (macos-elcapitan-release)
12: Oracle Solaris 10, x86, 32 bit, R-patched (experimental) (solaris-x86-patched)
13: Ubuntu Linux 16.04 LTS, R-devel, GCC (ubuntu-gcc-devel)
14: Ubuntu Linux 16.04 LTS, R-release, GCC (ubuntu-gcc-release)
15: Ubuntu Linux 16.04 LTS, R-devel with rchk (ubuntu-rchk)
16: Windows Server 2008 R2 SP1, R-devel, 32/64 bit (windows-x86_64-devel)
17: Windows Server 2012, R-devel, Rtools4.0, 32/64 bit (experimental) (windows-x86_64-devel-rtools4)
18: Windows Server 2008 R2 SP1, R-oldrel, 32/64 bit (windows-x86_64-oldrel)
19: Windows Server 2008 R2 SP1, R-patched, 32/64 bit (windows-x86_64-patched)
20: Windows Server 2008 R2 SP1, R-release, 32/64 bit (windows-x86_64-release)

4 great free tools that can make your R work more efficient, reproducible and robust

最后编辑于：2020.01.09 00:05:04

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 194,491评论 5赞 459
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 81,856评论 2赞 371
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 141,745评论 0赞 319
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,196评论 1赞 263
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,073评论 4赞 355
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,112评论 1赞 272
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,531评论 3赞 381
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,215评论 0赞 253
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,485评论 1赞 290
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,578评论 2赞 309
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,356评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,215评论 3赞 312
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,583评论 3赞 299
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 28,898评论 0赞 17
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,174评论 1赞 250
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,497评论 2赞 341
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,697评论 2赞 335