R-apply()函数

Content

Summary
apply()
lapply() & sapply()
tapply() & by() & aggregate()
Examples

1. Summary

函数	对象	操作顺序	返回对象	描述
apply()	matrix/dataframe/list	1:行；2:列	vector	用于行或列
lapply()	list/dataframe	列	list	用于列
sapply()	list/dataframe	列	vector/matrix	用于列
tapply()	vector	-	array/matrix	分组，用于列
by()	matrix/dataframe	列	list	分组；变量间关系
aggregate()	matrix/dataframe	列	dataframe	分组；应用于所有列

2. apply()

apply()函数允许在矩阵的各行或各列上调用指定函数

apply(m, dimcode, f, fargs)

m 矩阵
dimcode 维度编号，对行或列应用函数。1代表行，2代表列
f 应用的函数
fargs 函数 f 的可选参数

e.g.

> z <- matrix(nrow = 3, ncol = 2, 1:6)
> z
     [,1] [,2]
[1,]    1    4
[2,]    2    5
[3,]    3    6

> f <- function(x) x/c(2, 8)
> y <- apply(z, 1, f)
> y
     [,1]  [,2] [,3]
[1,]  0.5 1.000 1.50
[2,]  0.5 0.625 0.75

函数 f 将矩阵 z 的元素按行的顺序除以向量(2, 8)（向量(2,8)只有两个元素，所以会循环使用）。返回的结果 y 是一个2行3列的矩阵，因为所调用的函数 f 每次返回的是一个包含2个元素的向量（因为矩阵 z 每行有2个元素），apply()的结果按列进行填充，所以只有2行。

向待调用函数添加参数：

e.g. 存在一个由0和1组成的矩阵，生成如下向量：取对应矩阵的每行，如果该行前d个元素中1较多，向量对应的元素就取1，反之取0。其中d是可以变的参数

> x
     [,1] [,2] [,3] [,4] [,5]
[1,]    1    0    1    1    0
[2,]    1    1    1    1    0
[3,]    1    0    0    1    1
[4,]    0    1    1    1    0

> copymaj <- function(rw,d){
+   maj <- sum(rw[1:d])/d  #计算每行前d个元素的平均值
+   ifelse(maj < 0.5, 0, 1)
+ }

> apply(x, 1, copymaj, 3)
[1] 1 1 0 1
> apply(x, 1, copymaj, 2)
[1] 1 1 1 1

通过制定参数d的值，分别计算每行前3个和前2个元素中0和1的占比。

3. lapply() & sapply()

lapply

代表 list apply 与矩阵的 apply 用法类似。对 列表(list)或数据框(dataframe)中每个组件执行给定的函数，并返回列表
```
> lapply(list(1:3, 25:29), median)
[[1]]
[1] 2

[[2]]
[1] 27
```
sapply

与lapply()类似，返回值为矩阵或向量
```
> sapply(list(1:3, 25:29), median)
[1]  2 27
```
数据框(dataframe)是列表的特例，故lapply sapply 也可应用于数据框。

对数据框应用 f() 函数，f() 会作用于数据框的每一列。

4. tapply() & by() & aggregate()

tapply() 多用于处理因子(factor)； by() 函数与 tapply() 类似，但可用于处理矩阵或数据框。

tapply(x, f, g)

x 向量，不能为数据框或矩阵；

f 因子或因子列表； g 函数

将 x 暂时分组，每组对应一个因子水平（或对应一组因子水平的组合），将 g() 函数应用到得到的子向量。结果返回表(table)。

> ages <- c(25, 26, 55, 37, 41, 42)
> affils <- c("R", "D", "D", "R", "U", "D")
> tapply(ages, affils, mean)
 D  R  U 
41 31 41

若存在两个及以上因子：e.g. 以25岁为分界，计算男女员工的平均薪水：

> d <- data.frame(gender = c('M', 'M', 'F', 'M', 'F', 'F'),
+                 age = c(47, 59, 21, 32, 33, 24),
+                 income = c(55000, 88000, 32450, 76500, 123000, 45650))
> d$over25 <- ifelse(d$age > 25, 1, 0)
> d
  gender age income over25
1      M  47  55000      1
2      M  59  88000      1
3      F  21  32450      0
4      M  32  76500      1
5      F  33 123000      1
6      F  24  45650      0

> tapply(d$income, list(d$gender, d$over25), mean)
      0         1
F 39050 123000.00
M    NA  73166.67

by(x, f, g)

x 指定数据，可为矩阵或数据框；f 因子或因子列表； g 函数

by() 函数可对矩阵或数据框进行分组，并接收对象 x 的多个参数执行函数。结果返回列表(list)。

e.g. 以数据框d为对象，按性别进行分组，计算收入与年龄间的回归关系：

> by(d, d$gender, function(g) lm(g[, 3] ~ g[, 2]))
d$gender: F

Call:
lm(formula = g[, 3] ~ g[, 2])

Coefficients:
(Intercept)       g[, 2]  
    -135450         7788  

------------------------------------------------------ 
d$gender: M

Call:
lm(formula = g[, 3] ~ g[, 2])

Coefficients:
(Intercept)       g[, 2]  
    57079.2        349.7

同样，用 by() 函数也能完成如上以 tapply() 函数完成的例子：以25岁为分界，计算男女员工的平均薪水

> by(d$income, list(d$gender, d$over25), mean)
: F
: 0
[1] 39050
------------------------------------------------------ 
: M
: 0
[1] NA
------------------------------------------------------ 
: F
: 1
[1] 123000
------------------------------------------------------ 
: M
: 1
[1] 73166.67
# 与 tapply() 不同，by() 返回 list

aggregate

aggregate(x, f, g)

x 列表或数据框对象； f 分组依据； g 作用函数

aggregate() 可对分组中的每一个变量调用 tapply() 函数。e.g. 按性别分组计算平均年龄与平均工资：

> d
  gender age income over25
1      M  47  55000      1
2      M  59  88000      1
3      F  21  32450      0
4      M  32  76500      1
5      F  33 123000      1
6      F  24  45650      0

> aggregate(d[, c(2, 3)], list(d$gender), mean)
  Group.1 age   income
1       F  26 67033.33
2       M  46 73166.67

# sapply() 与 tapply() 也能作用于对象的每个元素，但不能对对象进行分组
> sapply(d[, c(2, 3)], mean)
   age income 
    36  70100 
# 同样可用 apply() 函数
> apply(d[, c(2, 3)], 2, mean)
   age income 
    36  70100

5. Examples

使用 apply() 族函数对 dataframe d 进行如下操作：

添加分组：25岁以上为1，以下为0 （ apply() ）
计算员工的平均年龄；平均工资（ sapply()/tapply()/apply() ）
以25岁为标准分组，计算各组的平均工资（tapply()）
以25岁和性别为标准分组，计算各组的平均工资（tapply()）
以性别为标准进行分组，计算收入与年龄间的回归关系（by()）
以25岁和性别为标准分组，计算各组的平均工资和平均年龄（aggregate()）

> d <- data.frame(gender = c('M', 'M', 'F', 'M', 'F', 'F'),
+                 age = c(47, 59, 21, 32, 33, 24),
+                 income = c(55000, 88000, 32450, 76500, 123000, 45650))
> d
  gender age income
1      M  47  55000
2      M  59  88000
3      F  21  32450
4      M  32  76500
5      F  33 123000
6      F  24  45650

# 1. 添加分组：25岁以上为1，以下为0 （ `apply()` ）
> d$over25 <- apply(d[, 2, drop = F], 1, function(x) ifelse(x > 25, 1, 0))

> d
  gender age income over25
1      M  47  55000      1
2      M  59  88000      1
3      F  21  32450      0
4      M  32  76500      1
5      F  33 123000      1
6      F  24  45650      0
# 这里不使用 apply() 函数会更简洁：
# d$over25 <- ifelse(d$age > 25, 1, 0)

# 2. 计算员工的平均年龄；平均工资（ `sapply()`/`tapply()`/`apply()` ）
> lapply(d[, c(2, 3)], mean)
$age
[1] 36

$income
[1] 70100

> sapply(d[, c(2, 3)], mean)
   age income 
    36  70100 

> apply(d[, c(2, 3)], 2, mean)
   age income 
    36  70100 
                    
# 3. 以25岁为标准分组，计算各组的平均工资（`tapply()`）
> tapply(d$income, list(d$over25), mean)
    0     1 
39050 85625 
                    
# 4. 以25岁和性别为标准分组，计算各组的平均工资（`tapply()`）
> tapply(d[, 3], list(d$over25, d$gender), mean)
       F        M
0  39050       NA
1 123000 73166.67
                    
# 5. 以性别为标准进行分组，计算收入与年龄间的回归关系（`by()`）
> by(d, d$gender, function(x) lm(x[, 3] ~ x[, 2]))
d$gender: F

Call:
lm(formula = x[, 3] ~ x[, 2])

Coefficients:
(Intercept)       x[, 2]  
    -135450         7788  

------------------------------------------------------ 
d$gender: M

Call:
lm(formula = x[, 3] ~ x[, 2])

Coefficients:
(Intercept)       x[, 2]  
    57079.2        349.7  
                    
# 6. 以25岁和性别为标准分组，计算各组的平均工资和平均年龄（`aggregate()`）
> aggregate(d[, c(2, 3)], list(d$over25, d$gender), mean) 
  Group.1 Group.2  age    income
1       0       F 22.5  39050.00
2       1       F 33.0 123000.00
3       1       M 46.0  73166.67