在这篇文章中,我们介绍免费的工具,可以帮助你的工作变得更有效率,再现和生产。即
- data.table
- 基于Docker映像的Rocker项
- 基本并行计算包parallel
- 用于包检查的R-Hub服务。
data.table - R’s unsung powerhouse
在R包生态系统中,我发现最缺乏市场和严重低估价值的一个包是data.table。如果提到它,主要是因为它的速度和内存效率,这当然是理所应当的,但是我觉得忽略它的其他好处和特性是不公平的。
语法简洁
我喜欢data.table的语法简洁和原则驱动。实际上,对于最常见的用例,您所需要做的就是学习使用[]方括号,然后一个充满机会的奇妙世界就会随之而来。下面是一个简单的例子:取两个数据表,将它们连接到它们的公共列上,过滤行,汇总一个按求值表达式分组的变量。
# Prepare the packages and data
library(data.table)
flts <- as.data.table(nycflights13::flights)
wthr <- as.data.table(nycflights13::weather)
byCols <- intersect(names(flts), names(wthr))
# Join, filter, group by and aggregate
wthr[flts, on = byCols][origin == "JFK", mean(dep_delay, na.rm = TRUE), precip > 0]
## precip V1
## 1: FALSE 10.92661
## 2: NA 13.66543
## 3: TRUE 29.70753
功能齐全
-
dcast()
andmelt()
for efficient data reshaping -
rbindlist()
for fast replacement ofdo.call("rbind", l)
-
fsetdiff()
,fintersect()
,funion()
andfsetequal()
for fast and easy to use operations on data.tables -
rollup()
,cube()
andgroupingsets()
to create pivot tables, more on that in a dedicated article
很少依赖其他包
读写csv文件很快
The Rocker project for R-based Docker images
Containerization是一种强大而有用的工具,有许多用途,其中之一是可再现性。在R世界中,确保我们的R库包含我们需要的包的精确版本可以通过使用packrat或它的后继renv等工具来实现。
然而,管理R包版本只能让我们走这么远,尤其是依赖于其他系统依赖项时,比如使用pandoc来呈现R Markdown文档或Java。当我们需要在多个版本的R上测试我们的R应用程序时,如果只使用一个环境,特别是在基于unix的平台上,事情会变得非常繁琐和混乱。
接下来是Rocker项目——R环境的Docker容器。由于Carl Boettiger、Dirk Eddelbuettel和Noam Ross的努力,使用特定版本的R、RStudio甚至tidyverse包旋转容器就像启动终端并运行一样简单
docker run --rm -ti rocker/r-base
docker 对我还是一个比较新的课题,主要是目前并没有docker 的环境。用的比较多的环境管理是conda,有时间在探索一番docker 吧,看起来很好玩的样子。
Base package parallel
R语言的内部是单线程的,这意味着在编写R代码时,除非对数据之类的多线程计算进行优化,一般情况我们的代码将只使用一个线程,即使在日常任务中,这也会对性能造成挑战。特别是现在,即使是常见的、非常便携的ultrabook也带有4个或更多内核和8个或更多线程的处理器。
R生态系统提供了许多利用多线程的方法。在这篇文章中,我想让更多的人看到基本R安装本身的并行化选项,不需要任何额外的外部依赖或包——parallel。
在一个非常小的示例中,让我们看看对于前1000万个数字,对于最长的Collatz序列问题,我们可以多快地执行一个蛮力解决方案。首先,定义一个函数来计算给定整数n的序列长度:
col_len <- function(n) {
len <- 0L
while (n > 1) {
len <- len + 1L
if ((n %% 2) == 0)
n <- n / 2
else {
n <- (n * 3 + 1) / 2
len <- len + 1L
}
}
len
}
使用sapply()运行从1到9,999,999的数字的函数,并测量这台平板电脑上的时间,结果显示这个过程大约在580秒内完成——几乎是10分钟:
max(sapply(seq(from = 1, to = 9999999), col_len))
## [1] 8400511
现在我们将使用所有可用的线程在本地机器上创建一个简单的集群(cluster ),并将函数定义发送给所有创建的工作进程:
# Attach the parallel package
library(parallel)
# Create a cluster using all available threads
cl <- makeCluster(detectCores(), methods = FALSE)
# Send the definition of the col_len function to the workers
clusterExport(cl, "col_len")
# Execute in parallel using cluster cl
max(parSapply(cl, seq(from = 1, to = 9999999), col_len))
## [1] 8400511
# Stopping the cluster
stopCluster(cl)
使用所有8个可用线程执行代码并获得相同结果所需的时间减少到约90秒或1.5分钟。因此,使用base R并行地执行您的一些代码,最低限度地调整代码,并使用非常公平的语法,我们可以节省大量时间。
Rhub for fast and automated multi-platform R package testing
R-hub在不同的平台上提供免费的R CMD检查服务。这使R开发人员能够快速有效地检查他们的R包,以确保他们在几个平台上通过了所有必要的检查。作为奖励,检查似乎在很短的时间内运行,这意味着我们可以在几分钟内得到您的结果。
交互式地使用R-hub就像从CRAN安装rhub包一样简单,通过运行rhub::validate_email()来验证您的电子邮件,并运行:
cr <- rhub::check()
在一个交互式会话中,它将提供一个平台列表,供您选择并检查我们的包。
当我们写一个R包的时候总希望他能在所以有的平台上面运行,这时候check就能用了:
> check() # 这时候我们可以选择一个平台去测试,或者选择多个来测试。
── Choose build platform
1: Debian Linux, R-devel, clang, ISO-8859-15 locale (debian-clang-devel)
2: Debian Linux, R-devel, GCC (debian-gcc-devel)
3: Debian Linux, R-devel, GCC, no long double (debian-gcc-devel-nold)
4: Debian Linux, R-patched, GCC (debian-gcc-patched)
5: Debian Linux, R-release, GCC (debian-gcc-release)
6: Fedora Linux, R-devel, clang, gfortran (fedora-clang-devel)
7: Fedora Linux, R-devel, GCC (fedora-gcc-devel)
8: CentOS 6, stock R from EPEL (linux-x86_64-centos6-epel)
9: CentOS 6 with Redhat Developer Toolset, R from EPEL (linux-x86_64-centos6-epel-rdt)
10: Debian Linux, R-devel, GCC ASAN/UBSAN (linux-x86_64-rocker-gcc-san)
11: macOS 10.11 El Capitan, R-release (experimental) (macos-elcapitan-release)
12: Oracle Solaris 10, x86, 32 bit, R-patched (experimental) (solaris-x86-patched)
13: Ubuntu Linux 16.04 LTS, R-devel, GCC (ubuntu-gcc-devel)
14: Ubuntu Linux 16.04 LTS, R-release, GCC (ubuntu-gcc-release)
15: Ubuntu Linux 16.04 LTS, R-devel with rchk (ubuntu-rchk)
16: Windows Server 2008 R2 SP1, R-devel, 32/64 bit (windows-x86_64-devel)
17: Windows Server 2012, R-devel, Rtools4.0, 32/64 bit (experimental) (windows-x86_64-devel-rtools4)
18: Windows Server 2008 R2 SP1, R-oldrel, 32/64 bit (windows-x86_64-oldrel)
19: Windows Server 2008 R2 SP1, R-patched, 32/64 bit (windows-x86_64-patched)
20: Windows Server 2008 R2 SP1, R-release, 32/64 bit (windows-x86_64-release)
4 great free tools that can make your R work more efficient, reproducible and robust