R语言实战
第二章 创建数据集
1.数据集的概念:
数据集通常是由数据构成的一个矩形数组,行表示观测,列表示变量。
2.数据结构:
2.1 向量
函数c( )可用来创建向量。单个向量中的数据必须相同类型或相同模式(数值型、字符型或逻辑型)。
2.2 矩阵
可通过函数matrix( )创建矩阵。一般使用格式为:
mymatrix<-matirx(vector,nrow=number_of_rows,ncol=number_of_columns,
byrow=logical_value,dimname=list(
char_vector_rowname,char_vector_colnames))
2.3 数组
通过函数array( )创建。形式如下:
myarray<-array(vector,dimensions,dimnames)
2.4 数据框
2.4.1 可以通过data.frame创建:
mydata<-data.frame(col1,col2,col3,...)
#其中col1、col2、col3可以是任何类型。
2.4.2 选取数据框中的元素
attach( )、detach( )、和with( )
attach( )可将数据框添加到R的搜索路径中。detach( )则是将数据框从搜索路径中移除。
2.5 因子
factor( )
diabetes<-c("type1","type2","type1","type1")
要表示有序型变量,需要为函数factor( )指定参数ordered=TURE。
2.6 列表
list( )
3.数据的输入
常用的有:read.csv( ),read.table,参数有如下:
header:一个表示文件是否在第一行包含了变量名的逻辑型变量。
sep:分隔符。默认值是sep=" ",表示空格分隔。sep=","用于读取用逗号分隔行内数据的文件,sep="\t",用于读取.table文件。
row.names:行名
col.names:列名
na.strings:缺失值的字符向量
colClasses: 每一列的类型
quote: 用于对有特殊字符的字符串划定界限的字符串。默认值是双引号或单引号。
skip:读取数据前跳过的行的数目。
stringsAsFactors:字符是否需要转换成因子。
text:指定文件进行处理的字符串。(需要进一步学习)
mydata1<-read.csv("data.csv",skip=3,as.is=T,na.strings=c( ))
mydata2<-read,table("data2.csv",header=T,row.names="ID",sep=",")
小结
本章主要是掌握常见数据结构,以及数据框中参数的使用。读取文件数据是遇到问题该如何解决。
笔记参考R语言实战(第2版)