数据结构
R中的数据结构主要分为以下五大类,向量,矩阵,数组,数据框和列表,其中最常用的是向量和数据框。
1.向量
向量是用于存储数值型、字符型或逻辑型数据的一维数组。执行组合功能的函数c()可用来
创建向量。
a <- c(1, 2, 5, 3, 6, -2, 4)
b <- c("one", "two", "three")
c <- c(TRUE, TRUE, TRUE, FALSE, TRUE, FALSE)
这里, a是数值型向量, b是字符型向量,而c是逻辑型向量。
这里注意区分标量和向量,标量是只含一个元素的向量
从向量中提取元素
1.根据元素位置
#这里的x是你刚才赋值的变量名,根据自己的情况来修改
x[3] #x第3个元素
x[-3]#排除法,除了第3个元素之外剩余的元素
x[2:3]#第2到3个元素
x[-(2:3)]#除了第2-3个元素
x[c(1,3)] #第1个和第3个元素
2.根据值
x[x==9]#等于9的元素
x[x<0]
x[x %in% c(1,2,5)]#存在于向量c(1,2,5)中的元素
2.数据框
1.读取本地数据
首先将文本文件拷入当前工作目录中,然后可以直接读取文件。
read.table(file="huahua.txt",sep = "\t",header = T)
a<-read.table(file="doudou.txt",sep = "\t",header = T)
sep 是函数的形式参数,多数情况下, seq 参数用来指定字符的分隔符号。 tsv 文件是用逗号分隔的,故而 sep = "," txt 文件是用制表符分隔的,故而 sep = "\t"。
header表示是否将第一行设为列名。
2.设置行名和列名
x<-read.csv("doudou.txt") #读入文件
colnames(x) #查看列名
rownames(x) #查看行名
colnames(x)[1]<-"bioplanet" #将第一列名称改为bioplanet
rownames(x)[1]<-"bioplante" #将第一行名称改为bioplanet
x #查看改名后的文件
3.导出数据库
write.table (x, file ="", sep ="", row.names =TRUE, col.names =TRUE, quote =TRUE)
x:需要导出的数据
file:导出的文件路径
sep:分隔符,默认为空格(" "),也就是以空格为分割列
row.names:是否导出行序号,默认为TRUE,也就是导出行序号
col.names:是否导出列名,默认为TRUE,也就是导出列名
quote:字符串是否使用引号表示,默认为TRUE,也就是使用引号表示
4.变量的保存和加载
这次没有处理完的数据下次想接着用怎么办?--学会保存和重新加载。保存的格式是RData。
save.image(file="bioinfoplanet.RData")#保存当前所有变量
save(X,file="test.RData")#保存其中一个变量
load("test.RData")#再次使用RData时的加载命令
课后问题
save(X,file="test.RData")这句代码如果报错object X not found,是为什么,应该怎么解决?
回答:应该是没有提前将该文件拷入工作目录中,解决办法是提前将该文件拷入工作目录中,或者输入该文件的完整目录。