1.for循环
df <- tibble(a = rnorm(10),b=rnorm(10),c=rnorm(10),d=rnorm(10))
output <- vector("double", length = ncol(df)) #创建输出的空向量
for (i in seq_along(df)) { #seq_along(df)的作用同seq(df),根据数据框的列数生成序列
output[[i]] <- median(df[[i]]) #似乎对于向量而言,[[]]和[]差别不大
}
output #有别于以前的print()输出,这种输出是以向量的形式一次性输出
2.for循环的变体
2.1修改现有对象
这一点在平时生信数据处理中用得特别多。
rescale01 <- function(x) {
rng <- range(x,na.rm = T)
(x - rng[1]) / (rng[2] - rng[1])
}
for (i in seq_along(df)) {
df[[i]] <- rescale01(df[[i]])
}
2.2未知的输出长度
这里采用的是一种“空间换时间”的思想。
means <- c(0,1,2)
output <- vector("list",length(means)) #向量类型为"list", 长度为3
for (i in seq_along(means)) {
n <- sample(100,1)
output[[i]] <- rnorm(n,means[[i]]) #从符合正态分布的样本中取样
}
> str(output)
List of 3
$ : num [1:28] -0.405 1.177 1.245 0.368 1.041 ...
$ : num [1:44] 1.082 3.1 1.039 0.706 2.136 ...
$ : num [1:83] 3.32 2.12 2.4 1.74 3.17 ...
> str(unlist(output)) #unlist()将向量列表转为单个向量
num [1:155] -0.405 1.177 1.245 0.368 1.041 ...
使用一个更复杂的对象来保存每次迭代的结果,最后再一次性组合起来
2.3未知循环次数
这是一个抛硬币的例子,连续出现三次正面向上需要抛多少次。
flip <- function() sample(c("T","H"), 1)
flips <- 0
nheads <- 0
while(nheads < 3) {
if(flip() == "H") {
nheads <- nheads+1
} else {
nheads <- 0
}
flips <- flips+1
}
flips
3.for循环与函数式编程
将for循环包装在函数中
col_summary <- function(df,fun) {
out <- vector("double",length(df))
for (i in seq_along(df)) {
out[i] <- fun(df[[i]])
}
out
}
col_summary(df,median)
col_summary(df,mean)
col_summary(df,sd)
4.映射函数
每个函数都使用一个向量作为输入,并对向量的每一个元素施加一个函数操作,返回同样长度(同样名称)的一个新向量。映射函数的后缀决定向量类型(见上一节)。
map_dbl(df,mean)
map_dbl(df,median)
map_dbl(df,sd)
#结果同上面的col_summary(df,mean)......
?map()查看该函数族的其他函数
这一部分书籍上介绍得比较少,但我感觉又是很重要的一个函数族。