一、创建数据集(1)

1. 数据集的概念

  • 数据集通常是由数据构成的一个矩形数组,行表示观测,列表示变量。
  • R可以处理的数据类型(模式)包括数值型、字符型、逻辑型(TRUE/FALSE)、复数型(虚数)和原生型(字节)。

2. 数据结构

R拥有许多用于存储数据的对象类型,包括标量、向量、矩阵、数组、数据框和列表。

R中的数据结构

一些定义:

  • 在R中,对象(object)是指可以赋值给变量的任何事物,包括常量、数据结构、函数,甚至图形。对象都拥有某种模式,描述了此对象是如何存储的,以及某个类,像print这样的泛型函数表明如何处理此对象。
  • 与其他标准统计软件(如SAS、SPSS和Stata)中的数据集类似,数据框(data frame)是R中用于存储数据的一种结构:列表示变量,行表示观测。在同一个数据框中可以存储不同类型(如数值型、字符型)的变量。数据框将是用来存储数据集的主要数据结构。
  • 因子(factor)是名义型变量或有序型变量。它们在R中被特殊地存储和处理。

2.1 向量

向量是用于存储数值型、字符型或逻辑型数据的一位数组,用c( )可以创建向量,例如:

注意,单个向量中的数据必须拥有相同的类型或模式(数值型、字符型或逻辑型),同一向量中无法混杂不同模式的数据。

  • 标量是只含一个元素的向量,例如f<-3、g<-'US'和h<-TRUE,它们只用于保存常量。

在中括号中给定元素所处位置的数值,可以访问向量中的元素,例如:
  • 冒号用于生成一个数值序列。

2.2 矩阵

矩阵是一个二维数组,只是每个元素都拥有相同的模式(数值型、字符型或逻辑型),可通过函数matrix( )创建矩阵,一般使用格式为:

其中vector包含了矩阵的元素,nrow和ncol用以指定行和列的维数dimnames包含了可选的、以字符型向量表示的行名和列名。选项byrow则表明矩阵应当按行填充(byrow=TRUE)还是按列填充(byrow=FALSE),默认情况下按列填充。例如建立一个2*3的矩阵:
建立一个含列名标签的矩阵,并按行进行填充:
选择矩阵中的行、列或元素时,students[i, ]指矩阵X中的第i行,students[ ,j]指第j列,students[i, j]指第i行第j个元素。选择多行或多列时,下标i和j可为数值型向量:

  • 矩阵是二维的,当维度超过2时,可以使用数组。

2.3 数组

数组可通过array函数创建,形式如下:

其中vector包含了数组中的数据,dimensions是一个数值型向量,给出了各个维度下标的最大值,而dimnames是可选的、各维度名称标签的列表。例如:
  • 注意输入维度名称时碰到年份,仍然要加上引号;括号的使用一定要仔细。
  • 数组中的数据也只能拥有一种模式,从数组中选取元素的方式与矩阵相同。

2.4 数据框

由于不同的列可以包含不同模式(数值型、字符型等)的数据,数据框的概念较矩阵来说更为一般。数据框将是在R中最常处理的数据结构。

数据框可通过函数data.frame( )创建:
其中的列向量col1、col2、col3等可为任何类型(如字符型、数值型或逻辑型)。每一列的名称可由函数names指定。
  • 每一列数据的模式必须唯一。

选取数据框中元素的方式有若干种,可以使用前述(如矩阵中的)下标记号:

亦可直接指定列名:
$可用来选取一个给定数据框中的某个特定变量,例如,如果想生成糖尿病类型变量diabetes和病情变量status的列联表:
可以联合使用函数attach( )和detach( )或单独使用函数with( )来简化代码:
  1. attach( )、detach( )和with( )

    (1)函数attach( )可将数据框添加到R的搜索路径中。R在遇到一个变量名以后,将检查搜索路径中的数据框。例如:
    (2)函数detach( )将数据框从搜索路径中移除。值得注意的是,detach( )并不会对数据框本身做任何处理。这句是可以省略的,但其实它应当被例行地放入代码中,因为这是一个好的编程习惯。当名称相同的对象不止一个时,这种方法的局限性就很明显了,在数据框被绑定(attach)之前,你们的环境中已经有了一个名为age的对象,在这种情况下,原始对象将取得优先权,这与想要的结果有所出入。:

    因此,函数attach()和detach()最好在你分析一个单独的数据框,并且不太可能有多个同名对象时使用。

    (3)除此之外,另一种方式是使用函数with( ),可以这样重写上例:
    在这种情况下,中括号{ }之间的语句都针对数据框执行,这样就无需担心名称冲突了。如果仅有一条语句(例如summary(age)),那么中括号{ }可以省略。
    函数with( )的局限性在于,赋值仅在此函数的括号内生效:
    如果需要创建在with( )结构以外存在的对象,使用特殊赋值符<<-替代标准赋值符<-即可,它可将对象保存到with( )之外的全局环境中:
  2. 实例标识符

    在R中,实例标识符(case identifier)可通过数据框操作函数中的rowname选项指定:

2.5 因子

变量可归结为名义型、有序型或连续型变量。名义型变量是没有顺序之分的类别变量,例如diabetes;有序型变量表示一种顺序关系,而非数量关系,例如status;连续型变量可以呈现为某个范围内的任意值,并同时表示了顺序和数量,例如age。
类别(名义型)变量和有序类别(有序型)变量在R中称为因子(factor)。
(1)函数factor( )以一个整数向量的形式存储类别值,整数的取值范围是[1...k](其中k是名义型变量中唯一值的个数),同时一个由字符串(原始值)组成的内部向量将映射到这些整数上。举例来说,假设有向量:

语句diabetes <- factor(diabetes)将此向量存储为(1, 2, 1, 1),并在内部将其关联为1=Type1和2=Type2(具体赋值根据字母顺序而定)。针对向量diabetes进行的任何分析都会将其作为名义型变量对待,并自动选择适合这一测量尺度的统计方法。
(2)要表示有序型变量,需要为函数factor( )指定参数ordered=TRUE。
语句status <- factor(status, ordered=TRUE)会将向量编码为(3, 2, 1, 3),并在内部将这些值关联为1=Excellent、2=Improved以及3=Poor。另外,针对此向量进行的任何分析都会将其作为有序型变量对待,并自动选择合适的统计方法。
(3)对于字符型向量,因子的水平默认依字母顺序创建,然而按默认的字母顺序排序的因子很少能够让人满意。可以通过指定levels选项来覆盖默认排序:
各水平的赋值将为1=Poor、2=Improved、3=Excellent。一定要保证指定的水平与数据中的真实值相匹配,因为任何在数据中出现而未在参数中列举的数据都将被设为缺失值。
(4)数值型变量可以用levels和labels参数来编码成因子。如果男性被编码成1,女性被编码成2:
在这个例子中,性别将被当成类别型变量,标签“Male”和“Female”将替代1和2在结果中输出,而且所有不是1或2的性别变量将被设为缺失值。

代码清单-因子的使用

2.6 列表

列表(list)是R的数据类型中最为复杂的一种。一般来说,列表就是一些对象(或成分,component)的有序集合。列表允许整合若干(可能无关的)对象到单个对象名下,某个列表中可能是若干向量、矩阵、数据框,甚至其他列表的组合。可以使用函数list( )创建列表:

还可以为列表中的对象命名:

代码清单-创建一个列表

  • 可以通过在双重方括号中指明代表某个成分的数字或名称来访问列表中的元素。
  • 对于命名成分,mylist$ages也可以正常运行。

一些注意事项

  • R不提供多行注释或块注释功能。必须以#作为多行注释每行的开始。出于调试目的,也可以把想让解释器忽略的代码放到语句if(FALSE){... }中。将FALSE改为TRUE 即允许这块代码执行。

  • 将一个值赋给某个向量、矩阵、数组或列表中一个不存在的元素时,R将自动扩展这个数据结构以容纳新值:


    x <- x[1:3]会重新将其缩减回三个元素。

  • R中的下标不从0开始,而从1开始。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,589评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,615评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,933评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,976评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,999评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,775评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,474评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,359评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,854评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,007评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,146评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,826评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,484评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,029评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,153评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,420评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,107评论 2 356