Advanced 数据结构

取子集操作

R 语言的取子集操作既强大又迅速。 掌握了取子集操作可以让你实现其它语言无
法完成的复杂操作。 学习取子集操作比较难,因为你需要掌握许多相关的概念:

  1. 三种取子集操作符。[;[[,$
  2. 六种类型的取子集方式。
  3. 不同对象之间取子集操作的重要区别(比如向量、列表、因子、矩阵以及数据框)。
  4. 赋值和取子集操作联合使用。
    本章从最简单的取子集操作类型开始,帮助你掌握取子集操作:首先,使用[为原子向量取子集,然后逐渐扩展你的知识,转到更复杂的数据类型(如数组和列表);
    然后,转到其它取子集操作符,[[和$。 然后,你将学习如何把取子集操作和赋值操作结合起来,用来修改对象的某一部分;最后,你将看到许多有用的应用。
    取子集操作是 str()函数的补充操作,str()向你展示了对象的结构,取子集操作则可以让你取出对象中感兴趣的部分。

向量

  1. 正整数返回该位置的元素:
  2. 负整数忽略该位置的元素:
  3. 逻辑向量选出对应位置为 TRUE 的元素。
  4. 什么都不写,则返回原始向量
  5. 0 返回零长度的向量
  6. 字符向量,将返回名字与该字符匹配的元素

列表

对列表进行取子集操作与原子向量相同。 使用[将总是返回一个列表;使用[[和$,
如下所述,则让你取出列表的一部分。

矩阵和数组

你可以通过三种方式对更高维的结构进行取子集操作:

  1. 使用多个向量
  2. 使用单个向量
  3. 使用矩阵
    对矩阵(2 维)和数组(大于 2 维)进行取子集操作的最常见的方式,是对一维取子集操作的简单推广:你对每一个维度都提供一个一维索引,并以逗号分隔。 以留空白(blank)的方式来取子集,现在变得有用了,因为它代表取出所有的行或者列。

数据框

数据框既具有列表的特点,又具有矩阵的特点:如果你用一个向量对它们进行取子集操作,则它们表现得像列表;如果你用两个向量对它们进行取子集操作,则它们看起来像矩阵

S3 对象

S3 对象是由原子向量、数组和列表组成的,所以你可以使用上面描述的技术对 S3对象进行取子集操作。 你可以通过 str()函数获得的它们的结构信息。

S4 对象

对 S4 对象来说,有另外两种取子集操作符: @(相当于)和 slot()(相当于[[)。 @比更加严格,如果槽(slot)不存在,那么它会返回错误。 在第 7.3 节将描述更多细节。

简化(simplifying)和保持(preserving)

理解简化(simplifying)和保持(preserving)之间的区别很重要。 (译者注:所谓简化与保持,即取子集操作之后是否把结果转化为更简单的数据类型,比如取出数据框的一列,如果选择简化,则返回的是向量,如果选择保持,则返回的仍然是数据框) "简化"取子集操作,将返回可以表示输出并且尽可能简单的数据结构,在交互环境下,这是有用的,因为它通常能给你想要的结果。 "保持"取子集操作,使输出与输入的结构保持相同,在编程环境下,通常是更好的,因为结果将永远是相同的类型。 在对矩阵和数据框进行取子集操作时忽略了 drop = FALSE,是编程中最常见的错误来源之一。 (比如,你写了一个函数,用你的测试例子可以正常工作,但是如果有人传入了单列数据框,则可能会发生意想不到的、不明确的失败。) 不幸的是,如何在简化和保持之间进行切换,是随着不同的数据类型变化的,请看下表中的总结:

image.png

这一张图是需要记住的

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容