向量
R的特性:向量化计算,即对向量内的所有元素进行相同的运算。
向量建立:
普通向量:C()
函数
有序向量:seq(from = , to =, by =, length = , along = )
函数,或者用rep(vec, times = )
将指定的向量重复
生成空向量:numeric(n)
生成一个包含n个元素的数值向量向量提取:方括号索引,索引值也可以是一个向量
生成随机序列
runif(n)
返回n个0-1之间均匀分布的随机数
sample(vec, size = , replace )
从vec向量中随机抽样向量计算
充分利用R向量化计算的特征:
# 计算均值
vector <- runif(10) #生成随机向量
vec_max <- max(vector)
vec_min <- min(vector)
#提取出vector中最大值和最小值以外的内容
vec_trim <- vector[vector > vec_min & vector < vec_max]
#计算平均值
vec_mean <- mean(vec_trim)
- 向量类型的转换
数值型转换成字符型as.character(vec)
矩阵
- 矩阵生成
原始生成方法:由向量转化。matrix(vec, nrow = , ncol = , byrow = )
,或者直接用dim()
,dim()
既可以返回一个矩阵的维度,也可以用于定义对象的维度,dim(vec) <- c(n,m)
,可以将一个向量定义为n行m列的矩阵
向量合并方法:cbind()
将向量按列合并,rbind()
,将向量按行合并 - 矩阵索引
用二维数组[n,m]
提取,如果是matrix[n,m]
,返回(n,m)位置上的数值,如果是matrix[n, ]
返回第n行的结果
但注意索引后就变成普通的向量了,可以加参数matrix[n,m,drop = FALSE]
使得索引后仍然是一个矩阵 - 矩阵计算
- 矩阵计算的特点和向量相似:对矩阵内的每个元素都进行运算
rowSums(matrix)
将矩阵按行求和
colSums(matrix)
将矩阵按列求和
diag(matrix)
返回矩阵的对角线数值 - 矩阵赋值:索引后直接赋值即可,或者用
ifelse(object, yes, no)
函数,这个函数很巧妙,如果object中的逻辑运算为真,会对整个对象都进行yes内的操作 - 专门矩阵的运算:
t(matrix)
矩阵转置,%*%
矩阵乘法,solve(matrix1, matrix2)
解矩阵方程组,若第二个参数没有输入,则求矩阵的逆
数据框
数据库是R中最常用的对象,数据库中不同向量的类型可以不同,列可以表示变量,行可以表示样品。
- 数据框创建
data.frame(vec1, vec2)
注意字符型向量被创建为数据框时会自动转化成因子类型,可以通过改变参数stringAsFactors =
设置 - 数据框索引
- 用
[n,m]
按列数和行数索引 - 用
$
按列名索引
- 数据框描述统计
summary()
对每列进行描述统计
dim()
统计维度
head()
返回前6行数据
str()
返回整个数据结构 - 数据框排序
order(vector, decreasing = )
将向量排序,注意排序后的结果是向量的索引号,可以用此对数据框进行索引
data[order(data$vec1, decreasing = T), ][1:2, ]
,将数据库按照vec1列排序后取前两行
列表
列表可以容纳任何类型和结构的数据,且无论各类数据之间的长度
- 列表索引
直接用数字或者元素名称索引的结果仍然是列表,如my_list[3]
,如果想提取内部数据对象,需要加两个方括号,如my_list[[3]]
特殊对象
缺失值与空值
一般向量中包含缺失值后,做聚合运算的结果也会是NULL,需要在参数里添加na.rm = TRUE
公式
公式的形式y~x
,左侧为因变量,右侧为自变量
小技巧:生成多个自变量
n <- seq(1,50,1)
xvar <- paste0('x', n) #paste0函数,将两种字符进行拼接
right <- paste(xvar, collapse = '+') #paste函数,将字符串向量粘成一个字符串
left <- 'y~'
formula <- paste(left, right) #paste函数,将两个字符拼接
formula <- as.formula(formula) #转换成公式对象
表达式
暂缓执行表达式expression(obj)
将obj作为表达式内容存储,但不执行
执行表达式eval(obj)
当表达式以字符串形式存在时,用parse()
函数解析
环境
可以理解为房间。默认的环节为全局环境
- 创建新环境:
new.env()
- 判断环境中是否存在某变量:
exist(obj, envir = )
函数
#自定义函数
myfunc <- function(r) {
t <- mean(r)
return(t)
}
函数内部定义的变量为局部变量,不会再全局环境中出现,但函数内部可以调用全局变量
以上即为R语言中的常见对象,其中最常用的是数据框形式(data.frame),R运算的最大特点就是可以对对象内的每个元素进行运算。下一章要学习的正是R的这一操作:向量化运算。