2.1 数据集的概念
数据集:有数据构成的一个矩形数组,行--观测observation,列--变量variable。
2.2 数据结构
数据的对象类型:标量、向量、矩阵、数组、数据框和列表。
- 标量:只含一个元素的向量。
- 向量:一维数组,函数c()来创建,必须相同的数据类型(数值型、字符型或逻辑型);访问向量中的元素用方括号[ ]。
- 矩阵:二维数组,函数matrix来创建,必须相同的数据类型。选项byrow=TRUE按行填充,默认按列;使用下标和方括号来选择矩阵中的行、列和元素,如x[i,j]。
- 数组:与矩阵类似,但维度可大于2。函数array()来创建。
- 数据框:不同的列可以包含不同模式的数据。函数data.frame()来创建。函数attach(将数据框添加到路径中)/detach(移除数据框)/with。$访问特定变量。
- 因子:名义型变量和有序变量在R中称为因子。函数factor()创建。
- 列表:一些对象的有序集合。函数list()创建。双重方括号[[ ]]指明代表某个成分的数字或名称来访问列表中的元素。
2.3 数据的输入
- 键盘输入数据
- 从带分隔符的文本文件导入数据(.csv)
- 导入Excel数据 (read.xlsx)
- 导入XML数据
- 从网页抓取数据
- 导入SPSS数据
- 导入SAS数据
- 导入stata数据
- 导入NetCDF数据
- 导入HDF5数据
- 通过Stat/Transfer导入数据
2.4 数据集的标注
- 变量标签作为变量名
- 函数factor()作为类别型变量创建值标签
2.5 处理数据对象的实用函数
函数 | 用途 |
---|---|
length (object) | 显示对象中元素/成分的数量 |
dim (object) | 显示某个对象的维度 |
str(object) | 显示某个对象的结构 |
class(object) | 显示某个对象的类或类型 |
mode(object) | 显示某个对象的模式 |
names(object) | 显示某对象中各成分的名称 |
c(object, object,...) | 将对象合并入一个向量 |
cbind(object, object,...) | 按列合并对象 |
rbind(object, object,...) | 按行合并对象 |
object | 输出某个对象 |
head(object) | 列出某个对象的开始部分 |
tail(object) | 列出某个对象的最后部分 |
ls() | 显示当前的对象列表 |
rm(object, object,...) | 删除一个或更多个对象 |
newobject <- edit(object) | 编辑对象并另存为newobject |
fix(object) | 直接编辑对象 |