学习了R、RStudio以及R包的安装,自然要学习开门第一课——创建数据(以下文字摘自R语言实战(第二版))。R语言有许多用于储存的对象类型,包括标量、向量、矩阵、数组、数据库和列表。
向量(vector)
向量是用于存储数值型、字符型或逻辑型数据的一组一维数组。执行组合功能的函数c()用来创建向量。例如:
a <- c(1,2,3,4); b<- c("one","two","three"); c<-("TRUE", "FALSE","TRUE","TRUE"
)
其中a属于数字型向量,b属字符型向量,c属于逻辑型向量。单个向量中的数据必须用于相同的类型或模式。-
矩阵(matrix)
矩阵是一个二维数组,只是每个元素都拥有相同的模式。通过matrix()创建矩阵。
mymatrix <- matrix(vector, nrow= number_of_rows, ncol= number_of_columns, byrow=logical _value, dimnames=list(char_vector_rownames, char_vector_colnames))
解释一下,mymatrix相当于命名,赋予生命名字都OK,第一个是vector向量,包含矩阵的元素,nrow和ncol是行和列的数字,byrow表明矩阵是按照行填充还是列填充,默认是FLASE即,按列填充,若敲代码时,赋予byrow=TRUE,则按行填充,dimnames即对行或列进行命名。
创建了1个2*2的矩阵,向量为cells,行名为为rnames,列名为cnames,第一个按行填充,第二个按列填充
- 数组(array)
数组与矩阵类似,但是唯独可大于2,通过array()创建数组。
myarray<-array(vector,dimensions,dinames)
其中vector包含数组中的数据,dimensions是一个数值型向量,给出各个维度下标的最大值,dinames是可选的,为各个维度名称的标签的列表。
创建了一个234的数值型数组,其中各维度名称为dim1, dim2, dim3。而z(1,2,3)为第一行第二个第三组数据,值为15。
-
数据框(data.frame)
数据框属于最常处理的数据结构与SAS,SPSS和Stata中看到的数据集类似,通过data.frame()创建数据框。
mydata<-data.frame(col1,col2,col3,...)
其中的列向量col1,col2,col3等可成为任何类型。每一列的名称可由函数names来指定。
每一列数据模式必须唯一,但是可将多个模式的不同列放到一起组成数据框。
-
因子(factor)
类别(名义型)变量和有序类别(有序型)变量在R语言中称为因子,通过factor()创建因子。函数factor是以一个整数向量的形式存储类别之,整数的取值范围是[1...k](其中k是名义型变量中唯一值的个数),同时一个由字符串组成的内部向量将映射到这些整数上。
建立了4个向量,将向量diabetes指定为普通因子,将status指定为有序型因子,将整个数据合并成一个数据框。函数str()提供对象的信息,显示patientID和age为数字型向量,diabetes为普通因子,status为有序因子。函数summary()显示对象的统计概要,并会区别对待各个变量,如图显示,对patientID和age计算最小值,1/4,中间值,平均值,3/4以及最大值。对待diabetes和status显示出频数值。
注:1. 对于字符型向量,因子的水平默认依字母顺序创建,若想按照自己的逻辑,可通过选项levels来覆盖默认排序,如:status<-factor(status, order=TRUE,levels=c("Poor”, "Improved", "Excellent"))
2.对于数字型向量可用levels和labels参数来编码成因子。如男性编码成1,女性编码成2。
sex<-factor(sex, levels = c(1,2), labels = c("Male", "Female"))
-
列表(list)
列表是R的数据类型中最为复杂的一种,一般来说是一些对象(或成分)的有序集合。类别允许你整合若干对象到单个对象名下,通过list()创建列表。
创建了1个字符串,数字型向量,矩阵和字符型向量,将4个保存为1个列表。可以通过[[]]输出想要的成分,如mylist[[2]]或mylist[["ages"]]。
今天有分享这么多,不过在编写的时候发现简书的图片上传一直是!,显示失败,大家可以切换成预览模式就可看到自己插入图片的状态,不知道发布的时候会不会一致。