「R高级」使用Cpp提高性能之入门篇

C++能解决的瓶颈问题有:

  • 由于迭代依赖于之前结果,循环难以简便的向量化运算
  • 递归函数,或者是需要对同一个函数运算成千上万次
  • R语言缺少一些高级数据结构和算法

我们只需要在代码中写一部分C++代码来就可以处理上面这些问题。后续操作在Windows下进行,你需要安装Rtools,用install.packages("Rcpp")安装新版的Rcpp,最重要一点,你需要保证你R语言时不能是C:/Program Files/R/R-3.5.1/这种形式,否则会报错。

后续操作会用到microbenchmark包来评估R代码和RCPP的效率差异,用install.packages('microbenchmark)安装

RCPP入门

先从一个简单的add函数开始,学习如何用cppFunction在R里面写C++代码

library(Rcpp)

cppFunction('int add(int x, int y, int z) {
  int sum = x + y + z;
  return sum;
}')
add
# function (x, y) 
# .Call(<pointer: 0x0000000063c015a0>, x, y)

Rcpp将会编译C++代码, 然后构建能够连接到C++函数的R函数。后续将会介绍如何将一些R代码改写成C++代码。

  • 标量输入,标量输出
  • 向量输入,标量输出
  • 向量输入,向量输出
  • 矩阵输入,向量输出

没有输入,标量输出

最简单的函数就是不提供任何输出,返回一个输出,比如说

one <- function() 1L

等价的C代码是

int one(){
    return 1;
}

那么将这段C++代码在R用cppFunction中改写就是如下

cppFunction('int one(){
  return 1;
}')

上面这段函数就展示了R和C++之间一些重要区别:

  • C++写代码不是函数名 <- function(参数){} 而是 函数名(函数参数){}
  • C++中必须声明返回类型,ini就是标量整数。C++对应R语言常用向量的类是: NumericVector,IntegerVector, CharacterVectorLogicalVector.
  • R语言没有标量,全是向量。而C++有向量和标量之分,标量的数据类型是double, int, Stringbool
  • C++你必须要用到return声明要返回的数据
  • 每段代码后要跟着;

标量输入,标量输出

我们可以写一个函数,sign,他的功能就是把一个负数转成正数,正数不变

signR <- function(x){
  if (x > 0){
    x
  } else if (x == 0 ){
    0
  } else{
    -x
  }
}

cppFunction('int signC(int x){
            if( x >0 ){
              return x;
            } else if (x == 0){
              return 0;
            } else {
              return -x;
            }
}')

这个例子中要注意两件事情

  • 在C++中,你需要声明输入的数据类型
  • C++和R的条件语句长得一样。

向量输入,标量输出

R和C++一大区别就是R的循环效率很低。因此在R语言要尽量避免使用显示的循环语句,尽量向量化运算函数。而C++的循环花销特别小,所以可以放心大胆的用。

让我们用R代码写一个求和函数sum 以及 C++的求和函数,然后比较下效率

sumR <- function(x){
  total <- 0
  for (i in seq_along(x)){
    total <- total + x[i]
  }
  total
}

cppFunction('int sumC(NumericVector x ){ 
            int n = x.size();
            double total = 0;
            for(int i = 0; i < n; ++i){
              total += x[i];  
            }
            return total;
            }')

C++版本和R版本的逻辑相同,但是有如下不同

  • .size()确认向量的长度
  • for的写法为for(初始值; 判断语句; 递增)
  • 记住: C++的向量索引从0开始,R是从1开始
  • 向量赋值是=而不是<-
  • total += x[i]等价于total = total + x[i], 类似的符号还有-=, *=, /=

最后用microbenchmark比较下,R自带求和函数和我们自己写的两个版本的差异

x <- runif(1000)
microbenchmark(
  sum(x),
  sumC(x),
  sumR(x)
)

最快的是高度优化过的内置函数,最差的就是sumR(), 速度会比sumC()慢10倍以上。

向量输入,向量输出

R中比较常见的操作就是向量间运算,尤其R还会自动补齐。自动补齐某些时候会造成一些问题,但是C++不存在这个问题。我们可以写一个RCPP的+函数

cppFunction('NumericVector addC(NumericVector x, NumericVector y){
  int xn = x.size();
  int yn = y.size();
  
  if (xn != yn){
    stop("input should be same length");
  }
  NumericVector out(xn);
  for(int i=0; i< xn; ++i){
    out[i] = x[i] + y[i];
  }
  return out;
}')

x <- runif(1e6)
y <- runif(1e6)
microbenchmark(addC(x,y),
               x+y)

矩阵输入,向量输出

每个向量类型都有矩阵等价类,NumericMatrix, IntegerMatirx, CharacterMatirx, LogicalMatirx. 让我们尝试写一个rowSums()函数

cppFunction('NumericVector rowSumsC(NumericMatrix x){
  int nrow = x.nrow(), ncol = x.ncol();
  NumericVector out(nrow);
  
  for(int i = 0; i < nrow; i++){
    double total =0;
    for(int j =0; j< ncol; j++){
      total += x(i,j);
    }
    out[i] = total;
  }
  return out;
}')
set.seed(1024)
x <- matrix(sample(100), nrow = 10)
rowSumsC(x)

这里注意有两点不同,在C++中,你用()对矩阵取值,而不是[]

尽管看起来C++的代码运行起来比R语言快多了,比如说R要一分钟,RCPP只要一秒,但是如果算上我们写代码的时间和调试代码的时间,刚开始不熟练估计要10分钟,那么总体来看,还是直接上手写R代码比较合适。

但是如果有一些代码要不断复用,那么写C++代码还是很划算。这个时候就建议将代码写到专门的文本中,用sourceCpp()加载,而不是cppFunction()函数

在Rsutdio中可以创建一个C++模板文件,代码写完之后还可以进行debug。

创建模板

比如说在里面写上面的rowSumsC函数,分为如下几个部分

导入头文件,加载Rcpp到命名空间中,类似于library()

#include <Rcpp.h>
using namespace Rcpp;

使用// [[Rcpp::export]]说明这里的函数会被R使用

// [[Rcpp::export]]
NumericVector rowSumsC(NumericMatrix x){
  int ncol = x.ncol(), nrow = x.nrow();
  NumericVector out(nrow);
  
  for (int i =0; i < nrow; i++ ){
    double total = 0;
    for (int j =0 ;j < ncol; j++){
      total += x(i,j);
    }
    out[i] = total;
  }
  return out;
}

下面部分会在sourceCpp()加载后自动运行

/*** R
library(microbenchmark)
set.seed(1014)
x <- matrix(sample(100), 10)
microbenchmark(
  rowSumsC(x),
  Matrix::rowSums(x)
)
*/

将文件保存成rowSumsC.cpp, 之后在R里用sourceCpp(file = "rowSumsC.cpp")

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,752评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,100评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,244评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,099评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,210评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,307评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,346评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,133评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,546评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,849评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,019评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,702评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,331评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,030评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,260评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,871评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,898评论 2 351