探索R中的数据结构
输入数据
导入数据
标注数据(对变量或变量代码添加描述性的标签)
R中数据下标从1开始
- 创建数据集
- 选择一种数据结构来存储数据
- 将数据输入或导入到这个数据结构中
行列的称呼: 统计中: 行 -> 观测, 列 ->变量; 数据库分析师:行 ->记录, 列 -> 字段; 数据挖掘/机器学习: 行 -> 示例, 列 -> 属性
- 数据对象类型
标量、向量、矩阵、数组、数据框、列表
R中的数据结构.png
向量
- 向量使用执行组合功能的函数c(0)来创建,如a <- c (1,2,3,4,5)
- 标量是只含一个元素的向量 如 f <- 3
- 访问向量中的元素: a[c(2,4)]:访问向量a中第二个和第四个元素
a[3]: 访问向量a的第3个元素
a[2:6]:访问向量a中第2个到第6元素
矩阵
- 元素名 <- matrix(vector(要填充到矩阵中的元素), dimanmes=list(rnames,cnames)包含了可选的、以字符型向量表示的行名和列名, nrow=行数,ncol=列数, byrow=TRUE(按行填充)byrow=FALSE(按列填充)),默认按列填充)
- 可以使用矩阵下标获取元素a[, 2]获取第二列的元素
数组
- 数组和矩阵类似,但是维度可以大于2。
- 数组名 <-array(vector(数组中的数据),dimensions(数值型向量,各个维度下标的最大值), dimnames(可选,各个维度的标签列表) )
数据框
不同的列可以包含不同的模式(数值型、字符型等)数据
数据框名 <- data.frame(col1,col2,col3,...,row.names=patientID用来指定实例标识符)colx都为向量,即每一列的数据模式必须唯一
创建一个数据框.png
选取数据框中的元素.png
数据框的基本函数:
-
attach()可以将数据框添加到R的搜索路径中。R遇到一个变量名以后,将检查搜索路径中的数据框,以定位到这个变量。
attach用法.png - detach()将数据框从搜索路径中移除。detach并不会对数据框本身做任何处理。
detach可以省略
- with () 将数据框中的内容包裹起来,相当于一个大括号,能够让代码模块化。
如果想要创建with()结构以外的对象,使用特殊赋值符<<-代替标准赋值符<-即可,可以将对象保存到with()之外的全局环境中。