由于最近用R语言跑的数据比较多,且都是重复的操作,跑一次时间长,所以尝试了下并行运算,所用的包为<font color="red">parallel</font>,使用简单,易于上手。
parallel的用法
parallel
包的用法非常简单,我们只需要将原本的apply()
改为parApply()
,lapply()
改为parLapply()
,然后在函数前面加上初始化线程和结束线程的语句即可。
我们可以通过detectCores()
来检查我们自己电脑(或者服务器)的总线程数,并对其进行合理的线程设置。
示例如下:
# 设置并行线程数
num.cores <- 4
# 初始化线程
cl <- makeCluster(num.cores)
# 定义线程函数
parLapply(cl, seq(1,4), function(x) c(x^2, x^4))
# 结束线程
stopCluster(cl)
输出结果如下:
[[1]]
[1] 1 1
[[2]]
[1] 4 16
[[3]]
[1] 9 81
[[4]]
[1] 16 256
我们只需对并行的函数进行修改即可实现多线程并行运算,在资源充足的情况下,大大地加快我们的运算时间。
小小建议
- 申请全局变量时,需要把变量放在
makeCluster()
初始化之前,不然会一直提示报错,报错类似如下:
ERROR: Error in doTryCatch(return(expr), name, parentenv, handler): object 'batch.length' not found
- 使用
rm()
删除多余变量,以防运行内存过大。