R语言实战学习笔记 第二章 创建数据集

R语言实战

第二章 创建数据集

1.数据集的概念:

数据集通常是由数据构成的一个矩形数组,行表示观测,列表示变量。

2.数据结构:

2.1 向量

函数c( )可用来创建向量。单个向量中的数据必须相同类型或相同模式(数值型、字符型或逻辑型)。

2.2 矩阵

可通过函数matrix( )创建矩阵。一般使用格式为:

mymatrix<-matirx(vector,nrow=number_of_rows,ncol=number_of_columns,

byrow=logical_value,dimname=list(

char_vector_rowname,char_vector_colnames))

2.3 数组

通过函数array( )创建。形式如下:

myarray<-array(vector,dimensions,dimnames)

2.4 数据框

2.4.1 可以通过data.frame创建:

mydata<-data.frame(col1,col2,col3,...)

#其中col1、col2、col3可以是任何类型。

2.4.2 选取数据框中的元素

attach( )、detach( )、和with( )

attach( )可将数据框添加到R的搜索路径中。detach( )则是将数据框从搜索路径中移除。

2.5 因子

factor( )

diabetes<-c("type1","type2","type1","type1")

要表示有序型变量,需要为函数factor( )指定参数ordered=TURE。

2.6 列表

list( )

3.数据的输入

常用的有:read.csv( ),read.table,参数有如下:

header:一个表示文件是否在第一行包含了变量名的逻辑型变量。

sep:分隔符。默认值是sep=" ",表示空格分隔。sep=","用于读取用逗号分隔行内数据的文件,sep="\t",用于读取.table文件。

row.names:行名

col.names:列名

na.strings:缺失值的字符向量

colClasses: 每一列的类型

quote: 用于对有特殊字符的字符串划定界限的字符串。默认值是双引号或单引号。

skip:读取数据前跳过的行的数目。

stringsAsFactors:字符是否需要转换成因子。

text:指定文件进行处理的字符串。(需要进一步学习)

mydata1<-read.csv("data.csv",skip=3,as.is=T,na.strings=c( ))

mydata2<-read,table("data2.csv",header=T,row.names="ID",sep=",")

小结

本章主要是掌握常见数据结构,以及数据框中参数的使用。读取文件数据是遇到问题该如何解决。

笔记参考R语言实战(第2版)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。