第一部分:数据类型进阶
1.逻辑值:比较运算的结果
>,<,<=,>=
== #判断是否相等
3==5 F
!=#判断是否不相等
3!=5 T
2.逻辑运算:多个逻辑条件的链接
& #与,所有逻辑条件为T,返回T,>=1个逻辑条件为F,返回F。
3<5&4>5 F
| #或,1>=个逻辑条件为T,返回T。
3<5|4>5 T
! #非
!4>5 T
3.数据类型的判断和转换
is族函数,返回TRUE或FALSE
is.numeric()
is.logical()
is.character()
as族函数实现数据类型之间的转换(有条件)
as.numeric()
as.logical()
as.character()
4.数据结构
向量、数据框、矩阵、列表
向量:1列数据,同1种数据类型,可以有重复值。
第二部分:向量
插播小tip:脚本中文显示乱码,File-Reopen with Encoding-UTF-8
2.1向量的生成
#(1)用 c() 结合到一起
c(2,5,6,2,9)
c("a","f","md","b")
#(2)连续的数字用冒号“:”
1:5
#(3)有重复的用rep(),有规律的序列用seq(),随机数用rnorm
rep("gene",times=3)
seq(from=3,to=21,by=3)
rnorm(n=3)
#(4)通过组合,产生更为复杂的向量。
paste0(rep("gene",times=3),1:3)
小思考:paste与paste0区别:空格
> paste0(rep("gene",times=3),1:3)
[1] "gene1" "gene2" "gene3"
> paste(rep("gene",times=3),1:3)
[1] "gene 1" "gene 2" "gene 3"
经典小练习:
1.将两种不同类型的数据用c()组合在一起,看输出结果。
数据类型转换的优先顺序:字符>数值>逻辑!
> c(1,"1",T)
[1] "1" "1" "TRUE"
> c(1,T)
[1] 1 1
> c(1,"1")
[1] "1" "1"
>
2.生成sample4,sample8,sample12…sample28
paste0(rep("sample",times=7),seq(from=4,to=30,by=4))
7是数出来的,如何使用代码命令不用人工数?如何简化代码?
y=seq(from=4,to=30,by=4) #利用赋值
x=length(y) #利用长度函数
paste0(rep("sample",times=x),y)
paste0(rep("sample",x),y)
paste0("sample",y)#利用循环补齐
2.2 对单个向量进行操作
(1)赋值给一个变量名
x = c(1,3,5,1) #随意的写法
x <- c(1,3,5,1) #规范的赋值符号Alt+减号
#赋值+输出一起实现
x <- c(1,3,5,1);x
(x <- c(1,3,5,1))
(2)简单数学计算
> x+1
[1] 2 4 6 2
> log(x)
[1] 0.000000 1.098612 1.609438 0.000000
> sqrt(x)
[1] 1.000000 1.732051 2.236068 1.000000
(3)根据某条件进行判断,生成逻辑型向量
> x>3
[1] FALSE FALSE TRUE FALSE
> x==3
[1] FALSE TRUE FALSE FALSE
(4)初级统计
初级
max(x) #最大值
min(x) #最小值
mean(x) #均值
median(x) #中位数
var(x) #方差
sd(x) #标准差
sum(x) #总和
需牢记函数
x <- c(1,3,5,1)
> length(x) #长度
[1] 4
> unique(x) #去重复
[1] 1 3 5
> duplicated(x) #从头开始,对应元素是否重复,返回结果为逻辑值的函数
[1] FALSE FALSE FALSE TRUE
> !duplicated(x)
[1] TRUE TRUE TRUE FALSE
> table(x) #重复值统计
x
1 3 5
2 1 1
> sort(x)#排序
[1] 1 1 3 5
> sort(x,decreasing = T)#从大到小排序
[1] 5 3 1 1
>
2.3.对两个向量进行的操作
重点:循环补齐
> x = c(1,3,5,1)
> y = c(3,2,5,6)
> #(1)逻辑比较,生成等长的逻辑向量
> x == y
[1] FALSE FALSE TRUE FALSE
> x %in% y #x中的元素在y中吗,length=length(x)
[1] FALSE TRUE TRUE FALSE
> #(2)数学计算
> x + y
[1] 4 5 10 7
> #(3)“连接“
> paste(x,y,sep=":")
[1] "1:3" "3:2" "5:5" "1:6"
> #(4)交集、并集、差集
> intersect(x,y)#交集
[1] 3 5
> union(x,y)#并集
[1] 1 3 5 2 6
> setdiff(x,y)#差集,我有你没有,前位为主。
[1] 1
> setdiff(y,x)
[1] 2 6
> #当两个向量长度不一致
> x = c(1,3,5,6,2)
> y = c(3,2,5)
> x == y # 啊!warning!
[1] FALSE FALSE TRUE FALSE TRUE
Warning message:
In x == y : 长的对象长度不是短的对象长度的整倍数
>
#Warning 可以忽略,length不同,循环补齐!
> y==x
[1] FALSE FALSE TRUE FALSE TRUE
length为长的向量的length
2.4.向量筛选(取子集)
思考:50个数中筛选小于7的?
> x=c(1:50);x
[1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
[26] 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
> x<7
[1] TRUE TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE FALSE FALSE
[13] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[25] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[37] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[49] FALSE FALSE
> x[x<7]
[1] 1 2 3 4 5 6
>
从1000个基因名中,选出指定的30个?
x=1000个基因名
y=30个基因名
x%in%y
x[x%in%y]
> x <- 8:12
> #根据逻辑值取子集
> x==10
[1] FALSE FALSE TRUE FALSE FALSE
> x[x==10]
[1] 10
> x<12
[1] TRUE TRUE TRUE TRUE FALSE
> x[x<12]
[1] 8 9 10 11
> x %in% c(9,13)
[1] FALSE TRUE FALSE FALSE FALSE
> x[x %in% c(9,13)]
[1] 9
> #根据位置取子集
> x[4]#取第4位
[1] 11
> x[2:4]#取2到4位
[1] 9 10 11
> x[c(1,5)]#取第1,5位
[1] 8 12
> x[-4]#去掉第4个
[1] 8 9 10 12
> x[-(2:4)]#去掉2到4位
[1] 8 12
>
2.5.修改向量中的某个/某些元素:取子集+赋值
> x <- 8:12;x
[1] 8 9 10 11 12
> #改一个元素
> x[4] <- 40
> x
[1] 8 9 10 40 12
> #改多个元素
> x[c(1,5)] <- c(80,20)
> x
[1] 80 9 10 40 20
2.6 简单向量作图
> k1 = rnorm(12);k1
[1] 0.14592150 -0.38821364 -0.30401235 0.44643789 -0.55427593 -0.50036805
[7] -0.20160550 1.19637255 0.72517626 -0.08039528 0.24159809 -1.53132879
> k2 = rep(c("a","b","c","d"),each = 3);k2
[1] "a" "a" "a" "b" "b" "b" "c" "c" "c" "d" "d" "d"
> plot(k1)
> boxplot(k1~k2)
>
image.png
image.png