基本数据管理
4-2 创建新变量
#方法1
mydata<-data.frame(x1 = c(2, 2, 6, 4),x2 = c(3, 4, 2, 8))
mydata$sumx <- mydata$x1 + mydata$x2
mydata$meanx <- (mydata$x1 + mydata$x2)/2
#方法2
attach(mydata)
mydata$sumx <- x1 + x2
mydata$meanx <- (x1 + x2)/2
detach(mydata)
#方法3
mydata <- transform(mydata,sumx = x1 + x2,meanx = (x1 + x2)/2)
fix(leadership)来调用一个交互式的编辑器。然后单击变量名,然后在弹出的对话框中将其重命名
或通过names()函数来重命名变量。例如:names(leadership)[2] <- "testDate" #2指第二个变量
names(leadership)[6:10] <- c("item1", "item2", "item3", "item4", "item5")
plyr包中有一个rename()函数,可用于修改变量名。
rename(dataframe, c(oldname="newname",oldname="newname",...))
重编码缺失值
leadership$age[leadership$age == 99] <- NA
多数的数值函数都拥有一个na.rm=TRUE选项,可以在计算之前移除缺失值并使用剩余值进行计算:
x <- c(1, 2, NA, 3)
y <- sum(x, na.rm=TRUE)
函数na.omit()移除所有含有缺失数据的行。
4-4 使用na.omit()删除不完整的观测
> leadership
manager date country gender age q1 q2 q3 q4 q5
1 1 10/24/08 US M 32 5 4 5 5 5
2 2 10/28/08 US F 40 3 5 2 5 5
3 3 10/01/08 UK F 25 3 5 5 5 2
4 4 10/12/08 UK M 39 3 3 4 NA NA
5 5 05/01/09 UK F NA 2 2 1 2 1
> newdata <- na.omit(leadership)
> newdata
manager date country gender age q1 q2 q3 q4 q5
1 1 10/24/08 US M 32 5 4 5 5 5
2 2 10/28/08 US F 40 3 5 2 5 5
3 3 10/01/08 UK F 25 3 5 5 5 2
4-5 转换数据类型
> a <- c(1,2,3)
> a
[1] 1 2 3
> is.numeric(a)
[1] TRUE
> is.vector(a)
[1] TRUE
> a <- as.character(a)
> a
[1] "1" "2" "3"
> is.numeric(a)
[1] FALSE
> is.vector(a)
[1] TRUE
> is.character(a)
[1] TRUE
使用order()函数对一个数据框进行排序。默认的排序顺序是升序。在排序变量的前边加一个减号即可得到降序的排序结果。
newdata <- leadership[order(leadership$age),]
newdata <- leadership[order(gender, age),] #同样性别中按年龄升序排序
要横向合并两个数据框(数据集),请使用merge()函数。在多数情况下,两个数据框是通过一个或多个共有变量进行联结的(即一种内联结,inner join)。例如:
total <- merge(dataframeA, dataframeB, by="ID")
将dataframeA和dataframeB按照ID进行了合并。类似地,
total <- merge(dataframeA, dataframeB, by=c("ID","Country"))
将两个数据框按照ID和Country进行了合并。类似的横向联结通常用于向数据框中添加变量。
如果要直接横向合并两个矩阵或数据框,并且不需要指定一个公共索引,那么可以直接使用cbind()函数:
total <- cbind(A, B)
这个函数将横向合并对象A和对象B。为了让它正常工作,每个对象必须拥有相同的行数,以同顺序排序。
纵向合并两个数据框(数据集),请使用rbind()函数:
total <- rbind(dataframeA, dataframeB)
两个数据框必须拥有相同的变量,不过它们的顺序不必一定相同。如果dataframeA中拥有dataframeB中没有的变量,请在合并它们之前做以下某种处理:
删除dataframeA中的多余变量;
在dataframeB中创建追加的变量并将其值设为NA(缺失)。
从一个大数据集中选择有限数量的变量来创建一个新的数据集
newdata <- leadership[, c(6:10)] #将行下标留空(,)表示默认选择所有行
或者
myvars <- c("q1", "q2", "q3", "q4", "q5")
newdata <-leadership[myvars]
或者
myvars <- paste("q", 1:5, sep=" ")
newdata <- leadership[myvars]
剔除变量q3和q4
方法一:
myvars <- names(leadership) %in% c("q3", "q4")
newdata <- leadership[!myvars]
方法二(在知道q3和q4是第8个和第9个变量的情况下):
newdata <- leadership[c(-8,-9)]
方法三:
leadership$q3 <- leadership$q4 <- NULL
选入观测
方法一:
newdata <- leadership[1:3,]
newdata <- leadership[leadership$gender=="M" &leadership$age > 30,]
方法二:subset()函数
newdata <- subset(leadership, age >= 35 | age < 24,
select=c(q1, q2, q3, q4))
newdata <- subset(leadership, gender=="M" & age > 25,
select=gender:q4)
默认情况下,函数scale()对矩阵或数据框的指定列进行均值为0、标准差为1的标准化:
newdata <- scale(mydata)
要对每一列进行任意均值和标准差的标准化:
newdata <- scale(mydata)SD + M
其中的M是想要的均值,SD为想要的标准差。
要对指定列而不是整个矩阵或数据框进行标准化:
newdata <- transform(mydata, myvar = scale(myvar)10+50)
此句将变量myvar标准化为均值50、标准差为10的变量。
5-4 将函数应用于数据对象
> a <- 5
> sqrt(a)
[1] 2.236068
> b <- c(1.243, 5.654, 2.99)
> round(b)
[1] 1 6 3
> c <- matrix(runif(12), nrow=3)
> c
[,1] [,2] [,3] [,4]
[1,] 0.4205 0.355 0.699 0.323
[2,] 0.0270 0.601 0.181 0.926
[3,] 0.6682 0.319 0.599 0.215
> log(c)
[,1] [,2] [,3] [,4]
[1,] -0.866 -1.036 -0.358 -1.130
[2,] -3.614 -0.508 -1.711 -0.077
[3,] -0.403 -1.144 -0.513 -1.538
> mean(c)
[1] 0.444
函数mean()求得的是矩阵中全部12个元素的均值。但如果希望求的是各行的均值或各列的均值呢?
R中提供了一个apply()函数,可将一个任意函数“应用”到矩阵、数组、数据框的任何维度上。
apply(x, MARGIN, FUN, ...)
其中,x为数据对象,MARGIN是维度的下标,FUN是由你指定的函数,而...则包括了任何想传递给FUN的参数。
在矩阵或数据框中,MARGIN=1表示行,MARGIN=2表示列。
5-5 将一个函数应用到矩阵的所有行(列)
> mydata <- matrix(rnorm(30), nrow=6)
> mydata
[,1] [,2] [,3] [,4] [,5]
[1,] 0.71298 1.368 -0.8320 -1.234 -0.790
[2,] -0.15096 -1.149 -1.0001 -0.725 0.506
[3,] -1.77770 0.519 -0.6675 0.721 -1.350
[4,] -0.00132 -0.308 0.9117 -1.391 1.558
[5,] -0.00543 0.378 -0.0906 -1.485 -0.350
[6,] -0.52178 -0.539 -1.7347 2.050 1.569
> apply(mydata, 1, mean)
[1] -0.155 -0.504 -0.511 0.154 -0.310 0.165
> apply(mydata, 2, mean)
[1] -0.2907 0.0449 -0.5688 -0.3442 0.1906
将学生的各科考试成绩组合为单一的成绩衡量指标,基于相对名次(前20%、下20%、等等)给出从A到F的评分,
根据学生姓氏和名字的首字母对花名册进行排序。
5-6 方案一
> options(digits=2) #限定了输出小数点后数字的位数
> Student <- c("John Davis", "Angela Williams", "Bullwinkle Moose","David Jones",
"Janice Markhammer", "Cheryl Cushing","Reuven Ytzrhak", "Greg Knox",
"Joel England","Mary Rayburn")
> Math <- c(502, 600, 412, 358, 495, 512, 410, 625, 573, 522)
> Science <- c(95, 99, 80, 82, 75, 85, 80, 95, 89, 86)
> English <- c(25, 22, 18, 15, 20, 28, 15, 30, 27, 18)
> roster <- data.frame(Student, Math, Science, English,
stringsAsFactors=FALSE)
> z <- scale(roster[,2:4])
#由于数学、科学和英语考试的分值不同(均值和标准差相去甚远),在组合之前需要先让它们变得可以比较。
#一种方法是将变量进行标准化,这样每科考试的成绩就都是用单位标准差来表示,而不是以原始的尺度来表示了。
> score <- apply(z, 1, mean)
> roster <- cbind(roster, score)
> y <- quantile(score, c(.8,.6,.4,.2))
#quantile()给出了学生综合得分的百分位数。可以看到,成绩为A的分界点为0.74,B的分界点为0.44
> roster$grade[score >= y[1]] <- "A"
> roster$grade[score < y[1] & score >= y[2]] <- "B"
> roster$grade[score < y[2] & score >= y[3]] <- "C"
> roster$grade[score < y[3] & score >= y[4]] <- "D"
> roster$grade[score < y[4]] <- "F"
> name <- strsplit((roster$Student), " ")
#使用函数strsplit()以空格为界把学生姓名拆分为姓氏和名字。
> Lastname <- sapply(name, "[", 2)
> Firstname <- sapply(name, "[", 1)
> roster <- cbind(Firstname,Lastname, roster[,-1])
> roster <- roster[order(Lastname,Firstname),]
#使用函数sapply()提取列表中每个成分的第一个元素,放入一个储存名字的向量Firstname,
#并提取每个成分的第二个元素,放入一个储存姓氏的向量Lastname。
#"["是一个可以提取某个对象的一部分的函数
#使用cbind()合并列表
#由于已经不再需要student变量,在下标中使用–1将其丢弃。
> roster
Firstname Lastname Math Science English score grade
6 Cheryl Cushing 512 85 28 0.35 C
1 John Davis 502 95 25 0.56 B
9 Joel England 573 89 27 0.70 B
4 David Jones 358 82 15 -1.16 F
8 Greg Knox 625 95 30 1.34 A
5 Janice Markhammer 495 75 20 -0.63 D
3 Bullwinkle Moose 412 80 18 -0.86 D
10 Mary Rayburn 522 86 18 -0.18 C
2 Angela Williams 600 99 22 0.92 A
7 Reuven Ytzrhak 410 80 15 -1.05 F
1. for结构
for循环重复地执行一个语句,直到某个变量的值不再包含在序列seq中为止。
for (var in seq) statement
eg.
for (i in 1:10) print("Hello") #单词Hello被输出了10次
2. while结构
while循环重复地执行一个语句,直到条件不为真为止。
while (cond) statement
eg.
i <- 10
while (i > 0) {print("Hello"); i <- i - 1}
1. if-else结构
控制结构if-else在某个给定条件为真时执行语句。也可以同时在条件为假时执行另外的语句。
if (cond) statement
if (cond) statement1 else statement2
示例如下:
if (is.character(grade)) grade <- as.factor(grade)
if (!is.factor(grade)) grade <- as.factor(grade) else print("Grade already is a factor")
在第一个实例中,如果grade是一个字符向量,它就会被转换为一个因子。在第二个实例中,两个语句择其一执行。如果grade不是一个因子(注意符号!),它就会被转换为一个因子。如果它是一个因子,就会输出一段信息。
2. ifelse结构
ifelse结构是if-else结构比较紧凑的向量化版本,
ifelse(cond, statement1, statement2)
若cond为TRUE,则执行第一个语句;若cond为FALSE,则执行第二个语句。示例如下:
ifelse(score > 0.5, print("Passed"), print("Failed"))
outcome <- ifelse (score > 0.5, "Passed", "Failed")
在程序的行为是二元时,或者希望结构的输入和输出均为向量时,请使用ifelse。
3. switch结构
switch根据一个表达式的值选择语句执行。
switch(expr, ...)
其中的...表示与expr的各种可能输出值绑定的语句。
5-7 一个switch示例
> feelings <- c("sad", "afraid")
> for (i in feelings)
print(
switch(i,
happy = "I am glad you are happy",
afraid = "There is nothing to fear",
sad = "Cheer up",
angry = "Calm down now"
)
)
[1] "Cheer up"
[1] "There is nothing to fear"
5-9 数据集的转置
> cars <- mtcars[1:5,1:4]
> cars
mpg cyl disp hp
Mazda RX4 21.0 6 160 110
Mazda RX4 Wag 21.0 6 160 110
Datsun 710 22.8 4 108 93
Hornet 4 Drive 21.4 6 258 110
Hornet Sportabout 18.7 8 360 175
> t(cars) #行名将成为变量(列)名
Mazda RX4 Mazda RX4 Wag Datsun 710 Hornet 4 Drive Hornet Sportabout
mpg 21 21 22.8 21.4 18.7
cyl 6 6 4.0 6.0 8.0
disp 160 160 108.0 258.0 360.0
hp 110 110 93.0 110.0 175.0
整合数据
1.融合
library(reshape2)
md <- melt(mydata, id=c("ID", "Time"))
2. 重铸
newdata <- dcast(md, formula, fun.aggregate)
md为已融合的数据,formula描述了想要的最后结果,而fun.aggregate是(可选的)数据整合函数。其接受的公式形如:rowvar1 + rowvar2 + ... ~ colvar1 + colvar2 + ...
在这一公式中,rowvar1 + rowvar2 + ...定义了要划掉的变量集合,以确定各行的内容,
而colvar1 + colvar2 + ...则定义了要划掉的、确定各列内容的变量集合。