第2章 创建数据集
2.1 数据集的概念
数据集:由数据构成的一个矩形数组,行表示观测,列表示变量。
2.2 数据结构
R拥有许多用于存储数据的对象类型,包括标量、向量、矩阵、数组、数据框和列表。
2.2.1 向量
向量(Vector)是用于存储数值型、字符型或逻辑型数据的一维数组。
向量类型:数值型(numeric)、字符型(character)、逻辑型(logical)、整数型(integer)、复数型(complex)。
单个向量中的数据必须拥有相同的类型或模式。
单个数值是标量(scalar),标量实际上是长度为1的向量。6,7,8,9
1.构建向量
函数:c(….)
….:被连接的对象。
a <- c(1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0) # 数值型。可以有小数点。
a # 返回结果。
## [1] 1 2 3 4 5 6 7 8
a1 <- c("one", "two", "three", "four", "five", "six", "seven", "eight") # 字符型。
a1 # 返回结果。
## [1] "one" "two" "three" "four" "five" "six" "seven" "eight"
a2 <- c(TRUE, FALSE, TRUE, FALSE, TRUE, FALSE, TRUE, FALSE) # 逻辑型。
a2 # 返回结果。
## [1] TRUE FALSE TRUE FALSE TRUE FALSE TRUE FALSE
a3 <- c(1:20) # 整数型。
a3 # 返回结果。
## [1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
a4 <- c(1+1i, 2+3i, 3+5i) # 复数型。
a4 # 返回结果。
## [1] 1+1i 2+3i 3+5i
2.向量的命名
函数:names(x)
x:要操作的对象。
names(a) <- c("one", "two", "three", "four", "five", "six", "seven", "eight") # 给向量a的每个元素命名。
a # 显示结果
## one two three four five six seven eight
## 1 2 3 4 5 6 7 8
3.向量类型查看和转换
mode(a) # 查看向量a的数据类型。
## [1] "numeric"
class(a1) # 查看向量a1的数据类型。
## [1] "character"
length(a) # 查看向量a的元素个数。
## [1] 8
print(a) # 查看a。
## one two three four five six seven eight
## 1 2 3 4 5 6 7 8
is.numeric(a) # 判断a是否是数值型。
## [1] TRUE
is.character(a) # 判断a是否是特征型。
## [1] FALSE
is.logical(a) # 判断a是否是逻辑型。
## [1] FALSE
is.vector(a) # 判断a是否是向量。
## [1] TRUE
is.matrix(a) # 判断a是否是矩阵。
## [1] FALSE
is.data.frame(a) # 判断a是否是数据框。
## [1] FALSE
is.factor(a) # 判断a是否是因子。
## [1] FALSE
4.向量的索引
R会对向量各元素从1开始标注下标。索引时就是按下标进行的。
a[6] # 访问向量a中第6个元素。
## six
## 6
a[c(3,6)] # 访问向量a中第3和第6个元素。
## three six
## 3 6
a["seven"] # 返回向量a中名为seven的元素。
## seven
## 7
a[a < 5] # 返回向量a小于5的数值。
## one two three four
## 1 2 3 4
a[a < 3 | a > 6] # 返回a小于3且大于6的数值。
## one two seven eight
## 1 2 7 8
a[a > 3 & a < 6] # 返回3到6的数值。
## four five
## 4 5
5.向量的排序
sort(a) # 升序排列向量a元素。数值型按照数值从小到大排序。
## one two three four five six seven eight
## 1 2 3 4 5 6 7 8
sort(a1) # 向量b排序。字符型按照首字母顺序排序。
## [1] "eight" "five" "four" "one" "seven" "six" "three" "two"
sort(a, decreasing = TRUE) # decreasing默认为FALSE,升序。
## eight seven six five four three two one
## 8 7 6 5 4 3 2 1
rev(sort(a)) # 使用rev()函数实现向量a元素降序排列。
## eight seven six five four three two one
## 8 7 6 5 4 3 2 1
order(a1) # 返回排序用的下标。a1是字母顺序排序。
## [1] 8 5 4 1 7 6 3 2
6.向量的运算
a+3 # 向量a各元素加3。
## one two three four five six seven eight
## 4 5 6 7 8 9 10 11
a-2 # 向量a各元素减2。
## one two three four five six seven eight
## -1 0 1 2 3 4 5 6
a*3 # 向量a各元素乘以3。
## one two three four five six seven eight
## 3 6 9 12 15 18 21 24
a**3 # 向量a各元素3连乘。
## one two three four five six seven eight
## 1 8 27 64 125 216 343 512
a%%3 # 向量a各元素除3求余数。
## one two three four five six seven eight
## 1 2 0 1 2 0 1 2
a%/%3 # 向量a各元素整除3。
## one two three four five six seven eight
## 0 0 1 1 1 2 2 2
a^2 # 向量a各元素平方。
## one two three four five six seven eight
## 1 4 9 16 25 36 49 64
a+a # 加。长度相同的向量可以进行加减乘除等运算。
## one two three four five six seven eight
## 2 4 6 8 10 12 14 16
a-a # 减。
## one two three four five six seven eight
## 0 0 0 0 0 0 0 0
a*a # 乘。
## one two three four five six seven eight
## 1 4 9 16 25 36 49 64
a/a # 除。
## one two three four five six seven eight
## 1 1 1 1 1 1 1 1
a5 <- c(1,2) # 构建新的向量a5。
a+a5 # 长度不等的向量进行运算,将循环使用较短的向量进行运算。
## one two three four five six seven eight
## 2 4 4 6 6 8 8 10
append(a, 9, after = 8) # 在向量a元素中的8后面添加元素9。
## one two three four five six seven eight
## 1 2 3 4 5 6 7 8 9
a6 <- c(a, 10) # 在向量a的基础上增加元素10形成新的向量a6。
a6 # a6结果显示。
## one two three four five six seven eight
## 1 2 3 4 5 6 7 8 10
a7 <- c(a, a) # 将a1和a两个向量合并形成新的向量a7。
a7 # a7结果显示。
## one two three four five six seven eight one two three four five
## 1 2 3 4 5 6 7 8 1 2 3 4 5
## six seven eight
## 6 7 8
a1 %in% a7 # 判断向量a1的元素是否包含在a7中。
## [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
mean(a) # 求向量a的平均值。
## [1] 4.5
median(a) # 向量a的中位数。
## [1] 4.5
sum(a) # 求向量a的总和。
## [1] 36
sd(a) # 求向量a的标准差。
## [1] 2.44949
max(a) # 求向量a的最大值。
## [1] 8
min(a) # 求向量a的最小值。
## [1] 1
length(a) # 求向量a的数据长度。
## [1] 8
range(a) # 求向量a的数据范围。
## [1] 1 8
quantile(a) # 向量a的分位数。
## 0% 25% 50% 75% 100%
## 1.00 2.75 4.50 6.25 8.00
var(a) # 求向量a的方差。
## [1] 6
prod(a) # 向量a元素连乘。
## [1] 40320
sqrt(a) # 向量a元素开方。
## one two three four five six seven eight
## 1.000000 1.414214 1.732051 2.000000 2.236068 2.449490 2.645751 2.828427
a[-2] # 删除向量a中第2个元素。
## one three four five six seven eight
## 1 3 4 5 6 7 8
参考资料:
6. R语言笔记1:R语言对象的数据类型(向量、数组、矩阵、列表和数据框),https://blog.csdn.net/qy_microbiota/article/details/79377790
7. R语言基础–数据类型之向量,https://www.jianshu.com/p/7b47a6bbb7a9
8. 易百教程,R语言向量,https://www.yiibai.com/r/r_vectors.html
9. R语言基础-向量运算及R的数据结构(一),https://www.cnblogs.com/nnadd/p/12492276.html