efficientR笔记|| 四个工具提高R效率、可重复以及健壮性

在这篇文章中,我们介绍免费的工具,可以帮助你的工作变得更有效率,再现和生产。即

  • data.table
  • 基于Docker映像的Rocker项
  • 基本并行计算包parallel
  • 用于包检查的R-Hub服务。

data.table - R’s unsung powerhouse

在R包生态系统中,我发现最缺乏市场和严重低估价值的一个包是data.table。如果提到它,主要是因为它的速度和内存效率,这当然是理所应当的,但是我觉得忽略它的其他好处和特性是不公平的。

语法简洁

我喜欢data.table的语法简洁和原则驱动。实际上,对于最常见的用例,您所需要做的就是学习使用[]方括号,然后一个充满机会的奇妙世界就会随之而来。下面是一个简单的例子:取两个数据表,将它们连接到它们的公共列上,过滤行,汇总一个按求值表达式分组的变量。

# Prepare the packages and data
library(data.table)
flts <- as.data.table(nycflights13::flights)
wthr <- as.data.table(nycflights13::weather)
byCols <- intersect(names(flts), names(wthr))
# Join, filter, group by and aggregate
wthr[flts, on = byCols][origin == "JFK", mean(dep_delay, na.rm = TRUE), precip > 0]

##    precip       V1
## 1:  FALSE 10.92661
## 2:     NA 13.66543
## 3:   TRUE 29.70753
功能齐全
  • dcast() and melt() for efficient data reshaping
  • rbindlist() for fast replacement of do.call("rbind", l)
  • fsetdiff(), fintersect(), funion() and fsetequal() for fast and easy to use operations on data.tables
  • rollup(), cube() and groupingsets() to create pivot tables, more on that in a dedicated article
很少依赖其他包
读写csv文件很快

The Rocker project for R-based Docker images

Containerization是一种强大而有用的工具,有许多用途,其中之一是可再现性。在R世界中,确保我们的R库包含我们需要的包的精确版本可以通过使用packrat或它的后继renv等工具来实现。

然而,管理R包版本只能让我们走这么远,尤其是依赖于其他系统依赖项时,比如使用pandoc来呈现R Markdown文档或Java。当我们需要在多个版本的R上测试我们的R应用程序时,如果只使用一个环境,特别是在基于unix的平台上,事情会变得非常繁琐和混乱。

接下来是Rocker项目——R环境的Docker容器。由于Carl Boettiger、Dirk Eddelbuettel和Noam Ross的努力,使用特定版本的R、RStudio甚至tidyverse包旋转容器就像启动终端并运行一样简单

docker run --rm -ti rocker/r-base

docker 对我还是一个比较新的课题,主要是目前并没有docker 的环境。用的比较多的环境管理是conda,有时间在探索一番docker 吧,看起来很好玩的样子。

Base package parallel

R语言的内部是单线程的,这意味着在编写R代码时,除非对数据之类的多线程计算进行优化,一般情况我们的代码将只使用一个线程,即使在日常任务中,这也会对性能造成挑战。特别是现在,即使是常见的、非常便携的ultrabook也带有4个或更多内核和8个或更多线程的处理器。

R生态系统提供了许多利用多线程的方法。在这篇文章中,我想让更多的人看到基本R安装本身的并行化选项,不需要任何额外的外部依赖或包——parallel。

在一个非常小的示例中,让我们看看对于前1000万个数字,对于最长的Collatz序列问题,我们可以多快地执行一个蛮力解决方案。首先,定义一个函数来计算给定整数n的序列长度:

col_len <- function(n) {
  len <- 0L
  while (n > 1) {
    len <- len + 1L
    if ((n %% 2) == 0)
      n <- n / 2
    else {
      n <- (n * 3 + 1) / 2
      len <- len + 1L
    }
  }
  len
}

使用sapply()运行从1到9,999,999的数字的函数,并测量这台平板电脑上的时间,结果显示这个过程大约在580秒内完成——几乎是10分钟:

max(sapply(seq(from = 1, to = 9999999), col_len))

## [1] 8400511

现在我们将使用所有可用的线程在本地机器上创建一个简单的集群(cluster ),并将函数定义发送给所有创建的工作进程:

# Attach the parallel package
library(parallel)
# Create a cluster using all available threads
cl <- makeCluster(detectCores(), methods = FALSE)
# Send the definition of the col_len function to the workers
clusterExport(cl, "col_len")

# Execute in parallel using cluster cl
max(parSapply(cl, seq(from = 1, to = 9999999), col_len))

## [1] 8400511
# Stopping the cluster
stopCluster(cl)

使用所有8个可用线程执行代码并获得相同结果所需的时间减少到约90秒或1.5分钟。因此,使用base R并行地执行您的一些代码,最低限度地调整代码,并使用非常公平的语法,我们可以节省大量时间。

Rhub for fast and automated multi-platform R package testing

R-hub在不同的平台上提供免费的R CMD检查服务。这使R开发人员能够快速有效地检查他们的R包,以确保他们在几个平台上通过了所有必要的检查。作为奖励,检查似乎在很短的时间内运行,这意味着我们可以在几分钟内得到您的结果。

交互式地使用R-hub就像从CRAN安装rhub包一样简单,通过运行rhub::validate_email()来验证您的电子邮件,并运行:

cr <- rhub::check()

在一个交互式会话中,它将提供一个平台列表,供您选择并检查我们的包。

当我们写一个R包的时候总希望他能在所以有的平台上面运行,这时候check就能用了:

> check()   # 这时候我们可以选择一个平台去测试,或者选择多个来测试。

── Choose build platform 

 1: Debian Linux, R-devel, clang, ISO-8859-15 locale (debian-clang-devel)
 2: Debian Linux, R-devel, GCC (debian-gcc-devel)
 3: Debian Linux, R-devel, GCC, no long double (debian-gcc-devel-nold)
 4: Debian Linux, R-patched, GCC (debian-gcc-patched)
 5: Debian Linux, R-release, GCC (debian-gcc-release)
 6: Fedora Linux, R-devel, clang, gfortran (fedora-clang-devel)
 7: Fedora Linux, R-devel, GCC (fedora-gcc-devel)
 8: CentOS 6, stock R from EPEL (linux-x86_64-centos6-epel)
 9: CentOS 6 with Redhat Developer Toolset, R from EPEL (linux-x86_64-centos6-epel-rdt)
10: Debian Linux, R-devel, GCC ASAN/UBSAN (linux-x86_64-rocker-gcc-san)
11: macOS 10.11 El Capitan, R-release (experimental) (macos-elcapitan-release)
12: Oracle Solaris 10, x86, 32 bit, R-patched (experimental) (solaris-x86-patched)
13: Ubuntu Linux 16.04 LTS, R-devel, GCC (ubuntu-gcc-devel)
14: Ubuntu Linux 16.04 LTS, R-release, GCC (ubuntu-gcc-release)
15: Ubuntu Linux 16.04 LTS, R-devel with rchk (ubuntu-rchk)
16: Windows Server 2008 R2 SP1, R-devel, 32/64 bit (windows-x86_64-devel)
17: Windows Server 2012, R-devel, Rtools4.0, 32/64 bit (experimental) (windows-x86_64-devel-rtools4)
18: Windows Server 2008 R2 SP1, R-oldrel, 32/64 bit (windows-x86_64-oldrel)
19: Windows Server 2008 R2 SP1, R-patched, 32/64 bit (windows-x86_64-patched)
20: Windows Server 2008 R2 SP1, R-release, 32/64 bit (windows-x86_64-release)

4 great free tools that can make your R work more efficient, reproducible and robust

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,491评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,856评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,745评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,196评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,073评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,112评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,531评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,215评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,485评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,578评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,356评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,215评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,583评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,898评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,174评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,497评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,697评论 2 335

推荐阅读更多精彩内容

  • ORA-00001: 违反唯一约束条件 (.) 错误说明:当在唯一索引所对应的列上键入重复值时,会触发此异常。 O...
    我想起个好名字阅读 4,970评论 0 9
  • pyspark.sql模块 模块上下文 Spark SQL和DataFrames的重要类: pyspark.sql...
    mpro阅读 9,423评论 0 13
  • 曾经一直以为,人生就该像一杯清水,清澈透明,哪怕滴入一滴小小的墨汁,都会留下永远洗不掉的颜色。 现在发现,人生就是...
    七月非声阅读 119评论 0 0
  • Wang诗情画意阅读 163评论 0 0
  • “ 生活就像一盒巧克力,你永远不知道下一块是什么味道的… ”真的是充满了未知的刺激和乐趣啊!这让每个人...
    小小酥诶阅读 499评论 0 1