因为生统中经常需要用到一些数据的提取,比如提取某一处理来做正态性检验等等。这些数据的提取本质上就是对某一行或者某一列的提取。所以这一部分我们来讲讲常见的数据提取。
R 里面的逻辑运算符
在讲数据提取之前,我们可能需要先了解一些逻辑运算符的基本知识。只有掌握了这些基本知识,才可以在后面灵活地提取出你想要的数据。
这一部分的内容参考了《R语言实战》的 4.3 部分,推荐大家去看看看
我们生统用到的逻辑运算符通常是大于,小于以及等于。符号分别是
运算符 | 描述 |
---|---|
< | 小于 |
<= | 小于等于 |
> | 大于 |
>= | 大于等于 |
== | 等于(注意等于并不是 = ,而是 == 。因为一个等号表达的是赋值或者传入参数) |
当你利用逻辑运算符讲一个向量与数字进行比较的时候,R 就会返回给你 TRUE 或者 FALSE。
> vector_0 <- c(1,2,3,4)
> vector_0 > 2
[1] FALSE FALSE TRUE TRUE
可以看到,凡是大于 2 的,都标明了 TRUE 。值得一提的是,等于不仅仅可以跟数字进行比较,还可以跟字符串进行比较。这在后面对数据框进行数据提取的时候,很有帮助。
> vector_1 <- c(rep("A",2),rep("B",5))
> vector_1
[1] "A" "A" "B" "B" "B" "B" "B"
> vector_1 == "A"
[1] TRUE TRUE FALSE FALSE FALSE FALSE FALSE
实际上,R 里面还会有与、或、非等逻辑运算符。这对于数据框的提取也是很有帮助的,这个留待我们后面再讲。
向量的数据提取
讲完了逻辑运算符,我们就可以来提取数据了。我们之前介绍了两种生统常见的数据格式,一种是向量,另一种是数据框。我们这次先讲讲如何对向量来进行数据提取。
直接利用坐标提取
在 R 中最基本的数据提取手段就是利用 [] 这个符号。而在利用 [] 这个符号的时候,最简单的提取方式就是根据坐标进行提取了。我们先来尝试一下。
# 创建一个向量
> vector_2 <- c(1:10)
> vector_2
[1] 1 2 3 4 5 6 7 8 9 10
# 让我们提取第1个数据,注意 R 是以 1 开头的,而不是以 0 开头的。
> vector_2[1]
[1] 1
# 提取第2,3,4个数据
> vector_2[2:4]
[1] 2 3 4
# 提取第2,5个数据
> vector_2[2,5]
Error in vector_2[2, 5] : incorrect number of dimensions
> vector_2[c(2,5)]
[1] 2 5
可以看到,我们在一开始提取 2,5 的时候,R 给了我们报错。是因为向量是一个一维的数据结构,而 [2,5] 这种提取适合的是数据框这种二维的数据结构,这一点我们在后面提取数据框数据的时候会提到。
简单来说,对于向量这种一维数据结构的提取,你并不能在 [] 里面使用逗号。所以,你如果想要提取不连续的坐标,就可以把不连续的坐标变成向量的形式放入 [] 里面。
利用which命令来提取
利用坐标的方式来提取有时候局限性会很大,因为有时候数据会很乱,利用坐标提取并没有什么用。比如下面的数据
# sample等命令我们会在后面生统常见的命令那边提到
> vector_3 <- sample(1:100,10)
> vector_3
[1] 31 24 61 36 65 44 60 3 74 8
如果我们想要提取这里面大于60的数字,我们用肉眼观察,然后得到坐标的方式就比较麻烦。这时候我们就可以让 R 来代替我们找到那些大于 60 的数字的坐标。
这里我们用到的是 which
命令。
> which(vector_3 > 60)
[1] 3 5 9
这样我们就得到了大于 60 的数字的坐标了。然后再传入 [] 里面,这样就可以跟之前利用坐标一样来提取数据了。
> vector_3[which(vector_3 > 60)]
[1] 61 65 74
利用TRUE和FALSE来进行提取
除了用 which
命令来提取,我们还可以利用 TRUE 和 FALSE 来进行提取。
> vector_3 > 60
[1] FALSE FALSE TRUE FALSE TRUE FALSE FALSE FALSE TRUE FALSE
> vector_3[vector_3 > 60]
[1] 61 65 74
因为 TRUE 在 R 中和 T 是等价的,后面加参数的时候也是同理的。所以我在后面就会用 T 代表 TRUE了,FALSE 同理。
对于 TRUE 和 FALSE 这个类型的结果来说,有一个小彩蛋。就是我们可以把 T 和 F 传入 mean 和 sum 里面。
# 统计有多少是大于 60 的。
> sum(vector_3 > 60)
[1] 3
# 统计有百分之多少是大于 60 的。
> mean(vector_3 > 60)
[1] 0.3
可以看到,有 3 个数据是大于60,有 30% 的数据是大于60的。这对于大量数据的整体描述是一个非常好的小技巧。
参考文章:
- 《R语言实战》4.3
下一节我会讲讲如何对数据框进行提取操作。