向量
向量与标量
- 元素:数字或字符串(用chr表示)等。
- 标量:一个元素组成的变量。
- 向量:多个元素有序排列组成的变量。(可作为数据框中的一列)
> x<- c(1,2,3) #将x定义为由元素1,2,3组成的向量
> x
[1] 1 2 3
> x<- 1:10 #x为1-10所有整数
> x
[1] 1 2 3 4 5 6 7 8 9 10
> x<- seq(1,10,by = 0.5) #1-10每隔0.5取一个数
> x
[1] 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 8.5 9.0
[18] 9.5 10.0
> x<- rep(1:3,times=2) #1-3所有整数,并重复2次
> x
[1] 1 2 3 1 2 3
从向量中提取元素
- 根据元素的位置
> x[4] #第4个元素
[1] 1
> x[-4] #排除法,除了第4个元素之外剩余的元素
[1] 1 2 3 2 3
> x[2:4] #第2到第4个元素
[1] 2 3 1
> x[-(2:4)] #除了第2-4个元素
[1] 1 2 3
> x[c(1,5)] #第1个和第5个元素
[1] 1 2
- 根据值
> x<- 1:10
> x[x==10] #等于10的元素
[1] 10
> x[x<0] #小于0的元素
integer(0)
> x[x %in% c(1,2,5)] #存在于向量c(1,2,5)中的元素
[1] 1 2 5
%in%
判断前面一个向量内的元素是否存在于后面一个向量中,返回布尔值。
数据框
读取本地数据
> a <- read.table(file = "huahua.txt",sep = "\t",header = T)
> View(a)
-
sep
参数用来指定字符的分隔符号。
csv 文件以逗号分隔,sep = ","
txt 文件以制表符分隔,sep = "\t"
其他文件还有以空格分隔,sep = " "
分隔符是任意的,可根据具体情况指定的。 -
header
参数表示是否将文件的第一行作为列名,默认是T(true)。
设置行名和列名
> X <- read.csv('doudou.txt') #注意这里变量X是一个数据框
> colnames(X) #查看列名
[1] "X1" "X2"
> rownames(X) #查看行名,默认行名就是行号
[1] "1" "2" "3" "4" "5"
> colnames(X)[1] <- "bioplanet"#有的公司返回数据,左上角第一格为空,R会自动补为x,用这个命令来修改
> X <- read.csv(file = "huahua.txt",sep = " ",header =T,row.names=1)#最后row.names的意思是修改第一列为行名
数据框的导出
> write.table(X,file = "yu.txt",sep = ",",quote=F)#分隔符改为逗号,字符串不加双引号(默认有双引号)
变量的保存与重新加载
没处理完的数据可以保存下来(保存的格式是.RData),接着用再重新加载。
> save.image(file="bioinfoplanet.RData")#保存当前所有变量
> save(X,file="test.RData")#保存其中一个变量
> load("test.RData")#再次使用RData时的加载命令
提取元素
X[x,y] #第x行第y列
> X[1,1] #第1行第1列
[1] 1
X[x,] #第x行
> X[2,] #第2行
[1] NA
X[,y] #第y列
> X[,1] #第1列
[1] 1 NA NA 3 NA
X[y] #也是第y列
> X[1] #也是第1列
X2
A 1
B NA
C NA
D 3
E NA
X[a:b] #第a列到第b列
X[c(a,b)] #第a列和第b列
X$列名 #某列(优秀写法,而且这个命令还优秀到不用写括号的地步,并且支持Tab自动补全哦,不过只能提取一列)
> X$X2
[1] 1 NA NA 3 NA
直接使用数据框中的变量
plot(iris$Sepal.Length,iris$Sepal.Width) #取iris中的两列作散点图
脚本文件保存到工作目录中,后缀为.R。
问题
save(X,file="test.RData")
如果报错object X not found,是为什么,应该怎么解决?
答:找不到X变量,可能是因为脚本中前面的代码没有运行,导致环境变量中没有X这个变量,将前面的代码运行就好啦。