R-数据结构
数据类型包括:
其中,最需要掌握的是向量和数据框(即表格)。
向量
1、向量写法(赋值给变量)
#常用向量写法
> x <- c(1,2,3) #向量,1,2,3有序排列
#其它向量写法
> a <- 1:10 #将a赋值为1-10之间所有整数
> b <- rep(1:3,times=4) #将b赋值为1-3,重复4次
> c <- seq(1,10,by=0.5) #数列,1-10之间,间隔0.5取一次
2、从向量中提取元素
根据元素位置提取
R中第几就是第几,不是从0开始数。
> a
[1] 1 2 3 4 5 6 7 8 9 10
> a[4] #提取向量a中第4个元素
[1] 4
> a[-4] #提取向量a中除第4个元素以外的元素
[1] 1 2 3 5 6 7 8 9 10
> a[2:4] #提取向量a中第2个到第4个元素
[1] 2 3 4
> a[-(2:4)] #提取向量a中除第2个到第4个元素以外的元素
[1] 1 5 6 7 8 9 10
> a[c(1:5)] #提取向量a中第1个到第5个元素,乱敲的
[1] 1 2 3 4 5
> a[c(2,7)] #提取向量a中第2个和第7个元素
[1] 2 7
根据值提取
“等于”为“==”
> a
[1] 1 2 3 4 5 6 7 8 9 10
> a[a==10] #提取向量a中等于10的元素
[1] 10
> a[a==0] #提取向量a中等于0的元素,向量a中并没有
integer(0)
> a[a>5] #提取向量a中大于5的元素
[1] 6 7 8 9 10
> a[a %in% c(1,0.5,3)] #提取向量a中存在于向量c(1,0.5,3)中的元素,相当于向量a与向量c(1,0.5,3)的交集
[1] 1 3
数据框
读取数据框
> x <- read.csv('doudou.txt') #文件名用引号,单引号双引号均可
> z <- read.table(file='huahua.txt',sep='\t',header = T)
#单引号双引号均可
#sep:指定分隔符
#header=T,将表格中第一行作为表头
注意该文件必须在工作目录中,即与当前R Project在同一文件夹中。
设置行名和列名
> A <- read.csv("doudou.txt")
#查看列名
> colnames(A)
[1] "X1" "X2"
#查看行名,行名默认为行号
> rownames(A)
[1] "1" "2" "3" "4" "5"
修改列名
> colnames(A)[1]<-"bioplanet" #修改第一列列名
引自生信星球:有的公司返回数据,左上角第一格为空,R会自动补为x,用这个命令来修改。
修改行名
> z <- read.table(file='huahua.txt',sep="\t",header = T,row.names = 1)
#row.names:将第一列设置为行名
数据框导出
> write.table(A,file = "1.txt",sep = ",") #将分隔符改为逗号
导出的文件如下,字符串带有双引号。
用
quote=F
去掉双引号
> write.table(A,file = "1.txt",sep = ",",quote=F)
变量的保存与重新加载(下次使用)
保存格式:RData
#保存当前所有变量
> save.image(file="bioinfoplanet.RData")
#保存其中一个变量
> save(A,file="A.RData")
#重新加载
> load('bioinfoplanet.RData')
保存的RData会出现在工作目录中。
提取数据框中的元素
以变量A为例
- 变量名[x,y] #提取变量中的第x行第y列
> A[1,2] #注意bioplant和X2是表头,第一行是A和1
[1] 1
> A[2,2]
[1] NA
- 变量名[x,] #提取变量中的第x行
> A[1,]
bioplanet X2
A A 1
> A[3,]
bioplanet X2
3 C NA
- 变量名[,y] #提取变量中的第y列
> A[,2]
[1] 1 NA NA 3 NA
- 变量名[y] #同上,第y列
> A[2]
X2
A 1
2 NA
3 NA
4 3
5 NA
- 变量名[a:b] #提取变量中的第a列到第b列
> A[1:2]
bioplanet X2
A A 1
2 B NA
3 C NA
4 D 3
5 E NA
- 变量名[c(a,b)] #提取变量中的第a列和第b列
> A[c(1,2)]
bioplanet X2
A A 1
2 B NA
3 C NA
4 D 3
5 E NA
- 变量名$列名 #提取某一列(不用括号,支持Tab键自动补全)
> A$bioplanet
[1] A B C D E
Levels: A B C D E
> A$X2
[1] 1 NA NA 3 NA
直接使用数据框中的变量
新建数据框
data.frame()
#case、values为列名
#runif(n,min=0,max=1),runif()函数用于生成从0到1区间范围内的服从正态分布的随机数
> a <-data.frame(case=paste("S",1:50),values=runif(50))
#提取数据框中的列做散点图
> plot(a$case,a$values)
关于x轴的疑惑:为什么没有按照表格中的值进行排序?
来自花花的解答:默认按照ASCII码排序,不是按照数值
按照花花的方法进行了调整:
引用花花的教程:要把x轴对应的那一列变成因子,按照你想要的顺序排序
> a <-data.frame(case=paste0("S",1:50),values=runif(50))
> a$case <- factor(a$case,levels = paste0("S",1:50),ordered = TRUE)
> plot(a$case,a$values)
注意paste()和paste0()的区别在于:paste() S和数字之间有空格(sep=" "),paste0()没有空格,S与数字是紧挨着的。
调整后的散点图:
更简单的方法
1、将数据框的变量名添加到搜索环境中
> attach(a)
> plot(case,values)
作图完成后,将a从搜索环境中除去detach(a)
2、with
with(data, expr, …)函数用于在一个从data构建出的环境中运行R表达式。参考链接1 参考链接2
> with(a,{plot(case,values)
+ x<<-summary(values)})
> x
Min. 1st Qu. Median Mean 3rd Qu.
0.01185 0.26415 0.46720 0.47157 0.64463
Max.
0.95175
<<- :作为全局变量
如果写x<-summary(values),则出了大括号就失效。
脚本(即RStudio左上角框)的使用和保存
脚本文件的后缀:R
使用:在文件夹中找到,用RStudio打开。
作业题回答:
原因是没有建立这个变量/没有赋值(变量不存在),解决方法如下: