Content
- Summary
- apply()
- lapply() & sapply()
- tapply() & by() & aggregate()
- Examples
1. Summary
函数 | 对象 | 操作顺序 | 返回对象 | 描述 |
---|---|---|---|---|
apply() | matrix/dataframe/list | 1:行;2:列 | vector | 用于行或列 |
lapply() | list/dataframe | 列 | list | 用于列 |
sapply() | list/dataframe | 列 | vector/matrix | 用于列 |
tapply() | vector | - | array/matrix | 分组,用于列 |
by() | matrix/dataframe | 列 | list | 分组;变量间关系 |
aggregate() | matrix/dataframe | 列 | dataframe | 分组;应用于所有列 |
2. apply()
apply()
函数允许在矩阵的各行或各列上调用指定函数
apply(m, dimcode, f, fargs)
- m 矩阵
- dimcode 维度编号,对行或列应用函数。1代表行,2代表列
- f 应用的函数
- fargs 函数 f 的可选参数
e.g.
> z <- matrix(nrow = 3, ncol = 2, 1:6)
> z
[,1] [,2]
[1,] 1 4
[2,] 2 5
[3,] 3 6
> f <- function(x) x/c(2, 8)
> y <- apply(z, 1, f)
> y
[,1] [,2] [,3]
[1,] 0.5 1.000 1.50
[2,] 0.5 0.625 0.75
函数 f 将矩阵 z 的元素按行的顺序除以向量(2, 8)(向量(2,8)只有两个元素,所以会循环使用)。返回的结果 y 是一个2行3列的矩阵,因为所调用的函数 f 每次返回的是一个包含2个元素的向量(因为矩阵 z 每行有2个元素),apply()的结果按列进行填充,所以只有2行。
-
向待调用函数添加参数:
e.g. 存在一个由0和1组成的矩阵,生成如下向量:取对应矩阵的每行,如果该行前d个元素中1较多,向量对应的元素就取1,反之取0。其中d是可以变的参数
> x [,1] [,2] [,3] [,4] [,5] [1,] 1 0 1 1 0 [2,] 1 1 1 1 0 [3,] 1 0 0 1 1 [4,] 0 1 1 1 0 > copymaj <- function(rw,d){ + maj <- sum(rw[1:d])/d #计算每行前d个元素的平均值 + ifelse(maj < 0.5, 0, 1) + } > apply(x, 1, copymaj, 3) [1] 1 1 0 1 > apply(x, 1, copymaj, 2) [1] 1 1 1 1
通过制定参数d的值,分别计算每行前3个和前2个元素中0和1的占比。
3. lapply() & sapply()
-
lapply
代表 list apply 与矩阵的 apply 用法类似。对 列表(list)或数据框(dataframe)中每个组件执行给定的函数,并返回列表
> lapply(list(1:3, 25:29), median) [[1]] [1] 2 [[2]] [1] 27
-
sapply
与
lapply()
类似,返回值为矩阵或向量> sapply(list(1:3, 25:29), median) [1] 2 27
数据框(dataframe)是列表的特例,故
lapply
sapply
也可应用于数据框。对数据框应用 f() 函数,f() 会作用于数据框的每一列。
4. tapply() & by() & aggregate()
tapply()
多用于处理因子(factor); by() 函数与 tapply() 类似,但可用于处理矩阵或数据框。
tapply(x, f, g)
x
向量,不能为数据框或矩阵;
f
因子或因子列表; g
函数
将 x 暂时分组,每组对应一个因子水平(或对应一组因子水平的组合),将 g() 函数应用到得到的子向量。结果返回表(table)。
> ages <- c(25, 26, 55, 37, 41, 42)
> affils <- c("R", "D", "D", "R", "U", "D")
> tapply(ages, affils, mean)
D R U
41 31 41
若存在两个及以上因子:e.g. 以25岁为分界,计算男女员工的平均薪水:
> d <- data.frame(gender = c('M', 'M', 'F', 'M', 'F', 'F'),
+ age = c(47, 59, 21, 32, 33, 24),
+ income = c(55000, 88000, 32450, 76500, 123000, 45650))
> d$over25 <- ifelse(d$age > 25, 1, 0)
> d
gender age income over25
1 M 47 55000 1
2 M 59 88000 1
3 F 21 32450 0
4 M 32 76500 1
5 F 33 123000 1
6 F 24 45650 0
> tapply(d$income, list(d$gender, d$over25), mean)
0 1
F 39050 123000.00
M NA 73166.67
-
by(x, f, g)
x
指定数据,可为矩阵或数据框;f
因子或因子列表;g
函数by() 函数可对矩阵或数据框进行分组,并接收对象 x 的多个参数执行函数。结果返回列表(list)。
e.g. 以数据框d为对象,按性别进行分组,计算收入与年龄间的回归关系:
> by(d, d$gender, function(g) lm(g[, 3] ~ g[, 2])) d$gender: F Call: lm(formula = g[, 3] ~ g[, 2]) Coefficients: (Intercept) g[, 2] -135450 7788 ------------------------------------------------------ d$gender: M Call: lm(formula = g[, 3] ~ g[, 2]) Coefficients: (Intercept) g[, 2] 57079.2 349.7
同样,用 by() 函数也能完成如上以 tapply() 函数完成的例子:以25岁为分界,计算男女员工的平均薪水
> by(d$income, list(d$gender, d$over25), mean) : F : 0 [1] 39050 ------------------------------------------------------ : M : 0 [1] NA ------------------------------------------------------ : F : 1 [1] 123000 ------------------------------------------------------ : M : 1 [1] 73166.67 # 与 tapply() 不同,by() 返回 list
-
aggregate
aggregate(x, f, g)
x
列表或数据框对象;f
分组依据;g
作用函数aggregate() 可对分组中的每一个变量调用 tapply() 函数。e.g. 按性别分组计算平均年龄与平均工资:
> d gender age income over25 1 M 47 55000 1 2 M 59 88000 1 3 F 21 32450 0 4 M 32 76500 1 5 F 33 123000 1 6 F 24 45650 0 > aggregate(d[, c(2, 3)], list(d$gender), mean) Group.1 age income 1 F 26 67033.33 2 M 46 73166.67 # sapply() 与 tapply() 也能作用于对象的每个元素,但不能对对象进行分组 > sapply(d[, c(2, 3)], mean) age income 36 70100 # 同样可用 apply() 函数 > apply(d[, c(2, 3)], 2, mean) age income 36 70100
-
5. Examples
使用 apply() 族函数对 dataframe d 进行如下操作:
- 添加分组:25岁以上为1,以下为0 (
apply()
) - 计算员工的平均年龄;平均工资(
sapply()
/tapply()
/apply()
) - 以25岁为标准分组,计算各组的平均工资(
tapply()
) - 以25岁和性别为标准分组,计算各组的平均工资(
tapply()
) - 以性别为标准进行分组,计算收入与年龄间的回归关系(
by()
) - 以25岁和性别为标准分组,计算各组的平均工资和平均年龄(
aggregate()
)
> d <- data.frame(gender = c('M', 'M', 'F', 'M', 'F', 'F'),
+ age = c(47, 59, 21, 32, 33, 24),
+ income = c(55000, 88000, 32450, 76500, 123000, 45650))
> d
gender age income
1 M 47 55000
2 M 59 88000
3 F 21 32450
4 M 32 76500
5 F 33 123000
6 F 24 45650
# 1. 添加分组:25岁以上为1,以下为0 ( `apply()` )
> d$over25 <- apply(d[, 2, drop = F], 1, function(x) ifelse(x > 25, 1, 0))
> d
gender age income over25
1 M 47 55000 1
2 M 59 88000 1
3 F 21 32450 0
4 M 32 76500 1
5 F 33 123000 1
6 F 24 45650 0
# 这里不使用 apply() 函数会更简洁:
# d$over25 <- ifelse(d$age > 25, 1, 0)
# 2. 计算员工的平均年龄;平均工资( `sapply()`/`tapply()`/`apply()` )
> lapply(d[, c(2, 3)], mean)
$age
[1] 36
$income
[1] 70100
> sapply(d[, c(2, 3)], mean)
age income
36 70100
> apply(d[, c(2, 3)], 2, mean)
age income
36 70100
# 3. 以25岁为标准分组,计算各组的平均工资(`tapply()`)
> tapply(d$income, list(d$over25), mean)
0 1
39050 85625
# 4. 以25岁和性别为标准分组,计算各组的平均工资(`tapply()`)
> tapply(d[, 3], list(d$over25, d$gender), mean)
F M
0 39050 NA
1 123000 73166.67
# 5. 以性别为标准进行分组,计算收入与年龄间的回归关系(`by()`)
> by(d, d$gender, function(x) lm(x[, 3] ~ x[, 2]))
d$gender: F
Call:
lm(formula = x[, 3] ~ x[, 2])
Coefficients:
(Intercept) x[, 2]
-135450 7788
------------------------------------------------------
d$gender: M
Call:
lm(formula = x[, 3] ~ x[, 2])
Coefficients:
(Intercept) x[, 2]
57079.2 349.7
# 6. 以25岁和性别为标准分组,计算各组的平均工资和平均年龄(`aggregate()`)
> aggregate(d[, c(2, 3)], list(d$over25, d$gender), mean)
Group.1 Group.2 age income
1 0 F 22.5 39050.00
2 1 F 33.0 123000.00
3 1 M 46.0 73166.67