R语言学习DAY02:数据操作

重点来了,今天学习R的向量化操作,这一操作使得在R中很多情况下可以不用写循环来实现对对象内的每个元素进行计算。

sapply函数

假如定义了一个只能接受数值参数的函数:

func <- function(x){
  if(x %% 2 == 0){
    ret <- "even"
  } else {
    ret <- "odd"
  }
  return(ret)
}

如果用向量作为参数,运行会报错。所以请出可用于向量化计算的函数sapply(obj, function)。只需一个语句,就可以对向量中的每个元素实现计算:

vec <- round(runif(5) * 100)
sapply(vec, func)

当然另一个方法是把我们定义的这个函数改装成可以接受向量的函数:

funcv <- Vectorize(func)

sapply不光能对向量进行处理,还可以对数据框进行处理。例如计算数据库前4个变量的变异系数:

sapply(iris[ , 1:4], function(x) sd(x)/mean(x) ) #iris是著名的鸢尾花数据集

如果要对行进行计算,例如计算每一行第一列和第二列之和,用rowSums就行了

rowSums(iris[ , 1:2])

lapply函数

lapply函数的功能和sapply类似,但是lapply返回的结果是一个列表。这种格式有时候不是很好直接利用,所以还需要转化。比如:

t(as.data.frame(lapply(iris[, 1:3], func))

apply函数

apply函数主要用于处理矩阵,方便的地方在于可以在函数中指定参数MARGIN =,若为1表示以行为计算单位,若为2表示以列为计算单位

vec <- round(runif(12)*100)
dim(vec) <- c(3,4)
apply(vec, MARGIN = 1, sum) #计算每行之和
apply(vec, MARGIN = 2,  function(x) max(x) - min(x) #计算每列极差

tapply函数

tapply函数的特点在于可以指定参数INDEX,用于对数据进行分组,例如:

tapply(X = iris$Sepal.Length, INDEX = list(iris$Species), FUN =mean)
# 按列求每种花sepal.length均值

aggregate函数

aggregate函数功能与tapply类似,但它的输出结果是数据框。

aggregate(iris$Sepal.Length, by = list(iris$Species), mean)

replicate函数

replicate函数的作用在于反复调用某个函数生成某个结果,常在统计模拟中使用。

replicate(100, mean(rnorm(10000))
 #生成10000个正态分布,计算其均值,再将这一步骤重复100次

以上是常用的向量化操作函数。下面介绍常用的数据转换方式

取子集和编码转换

取子集常用的函数是subset(obj, row, col),第一个参数指定要取子集的数据对象,第二个参数指定要取的行数,可以是逻辑判断式,可以是一个向量,第三个参数指定要取的列数
编码转换常用的函数是transform,具体用法:

a <- transform(iris, v1 = log(iris[,1]))
#对iris第一列取对数,命名为v1,存储到新数据框a中

以及对数据进行分组,常用到cut函数:

q50 <- quantile(a$v1, 0.5) #取中位数
groupvec <- c(min(a$v1), q50, max(a$v1)) # 确定分组点
labels <- c('A','B')
a$v2 <- cut(a$v1, breaks = groupvec, labels = labels, include.lowest = TRUE)

还有就是将字符或者数字因子化,默认的顺序按照从小到大

vec_fac <- factor(vec, labels = c("male","female","unknow"))
# 将vec因子化,按照顺序分别赋为因子male、female和unknow
levels(vec_fac) <- c("male", "female", "male")
# 用male代替原来unknow标签

长宽数据格式

本来还以为长宽格式和常见的编程语言里对数据类型的定义是一样的,仔细看了之后发现这是描述数据形式的术语。
宽型数据指的是变量由不同列形式构成,是常见的表示样品-观测的数据矩阵形式;而长型数据则是将每个变量拆开,有种单独观测的感觉,各变量名在一列,变量对应的取值位于另一列,可以将长型数据理解为“只包含一个数值变量,其他都是分类变量”的数据形式。
有时数据框是由宽型数据和长型数据混合构成的,例如iris数据集,前4列为宽型数据,而最后一列可以视为长型数据,表示各个分类。
reshape2包用于处理长型数据。
dcast函数用于对长型数据汇总计算,举个例子

library(reshape2)
dcast(iris, Species~. , value.var = 'Petal.Width', fun = mean)

该函数有三个参数,第一个参数表示要分析的对象,第二个参数是一个公式,表示数据的分组方式,此处按照Species变量分组,第三个参数表示要分析的变量,第四个参数表示计算用的函数(和aggregate是不是有点像)

利用melt(obj, id = ' ')函数可以将混合型数据转变为宽型数据,obj是要分析的对象,id表示不参与融合的变量(即已经是分类变量),如果有多个变量,则指定参数为id.var =,后跟一个字符向量
melt()进行预处理后,就可以用dcast()进行更详细的分类描述计算了,例如:

long_iris <- melt(iris, id = 'Species')
dcast(long_iris, Species~variable, value.var = 'value', fun = mean)
# 计算每一种花的4个维度的均值
# 注意其中Species是因变量,variable是自变量,因变量放在行的位置上,自变量放在列的位置上,是要汇总的结果
# 可以指定多个因变量,用“+”相连

数据的拆分和合并

若是取子集,可以直接用subset()函数,或者用方括号进行索引。若要对数据进行拆分,则可以用split函数,拆分后的数据集以列表的形式存储。
但是大部分情况下单纯得到拆分的数据集没有太大意义,我们需要的是对拆分后的数据集进行运算,所以只需得到计算的结果就行了。这时需要dplyr包中的ddply函数

ddply(data, variable, fun)

其中data指定要分析的数据集,variable指定要分类的变量,fun是拆分计算的函数,若要按照两个变量拆分,可以使用y~x的方式指定。
总结一下,已经学到了3个用于分类计算的函数:

aggregrate(obj, by = , fun) 
#只能对一个数值进行分析,且只能按照一个变量分类,返回数据框形式
dcast(data = ,formula, fun)
#只能对长型数据进行分析,实际上即只能对一个数值进行分析,可以按照多个变量分类
ddply(dataset, formula, fun)
#可以按照多个变量划分,且可以计算数据库中的所有变量

若要对数据进行合并,增加变量,可以使用merge(dataset1, dataset2, by =)函数,但R中还有sqldf包,可以直接对数据框用sql语句进行操作(这个太良心了)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,172评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,346评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,788评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,299评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,409评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,467评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,476评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,262评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,699评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,994评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,167评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,827评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,499评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,149评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,387评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,028评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,055评论 2 352

推荐阅读更多精彩内容