R语言实战学习笔记第二章创建数据集

R语言实战

第二章创建数据集

1.数据集的概念：

数据集通常是由数据构成的一个矩形数组，行表示观测，列表示变量。

2.数据结构：

2.1 向量

函数c( )可用来创建向量。单个向量中的数据必须相同类型或相同模式（数值型、字符型或逻辑型）。

2.2 矩阵

可通过函数matrix( )创建矩阵。一般使用格式为：

mymatrix<-matirx(vector,nrow=number_of_rows,ncol=number_of_columns,

byrow=logical_value,dimname=list(

char_vector_rowname,char_vector_colnames))

2.3 数组

通过函数array( )创建。形式如下：

myarray<-array(vector,dimensions,dimnames)

2.4 数据框

2.4.1 可以通过data.frame创建：

mydata<-data.frame(col1,col2,col3,...)

#其中col1、col2、col3可以是任何类型。

2.4.2 选取数据框中的元素

attach( )、detach( )、和with( )

attach( )可将数据框添加到R的搜索路径中。detach( )则是将数据框从搜索路径中移除。

2.5 因子

factor( )

diabetes<-c("type1","type2","type1","type1")

要表示有序型变量，需要为函数factor( )指定参数ordered=TURE。

2.6 列表

list( )

3.数据的输入

常用的有：read.csv( )，read.table，参数有如下：

header：一个表示文件是否在第一行包含了变量名的逻辑型变量。

sep：分隔符。默认值是sep=" "，表示空格分隔。sep=","用于读取用逗号分隔行内数据的文件，sep="\t"，用于读取.table文件。

row.names:行名

col.names:列名

na.strings:缺失值的字符向量

colClasses: 每一列的类型

quote: 用于对有特殊字符的字符串划定界限的字符串。默认值是双引号或单引号。

skip：读取数据前跳过的行的数目。

stringsAsFactors:字符是否需要转换成因子。

text:指定文件进行处理的字符串。（需要进一步学习）

mydata1<-read.csv("data.csv",skip=3,as.is=T,na.strings=c( ))

mydata2<-read,table("data2.csv",header=T,row.names="ID",sep=",")

小结

本章主要是掌握常见数据结构，以及数据框中参数的使用。读取文件数据是遇到问题该如何解决。

笔记参考R语言实战（第2版）

最后编辑于：2020.08.11 15:48:33

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

R语言实战学习笔记 第二章 创建数据集

友情链接更多精彩内容

R语言实战学习笔记第二章创建数据集