Spark快速入门(1) 核心概念和抽象:RDD

Spark简介

Spark是目前比较流程的大数据计算引擎。在Spark出现之前,MapReduce已经作为大数据领域的编程模型和计算框架,那为什么又开发了Spark呢?

  • MapReduce并没有充分的利用内存,而有些数据量不大的场景使用内存就可以完成计算;
  • MapReduce有很多冗余的中间结果读写操作,虽然会提升稳定性,但某些adhoc的查询对执行时间更加敏感;
  • MapReduce没有对功能做组件化,用户只能全部安装。

Spark通过对数据的重新抽象,和执行过程的优化,致力于解决以上问题,目前Spark已经可以应用于批计算、实时计算和图计算,并在向数据科学方向继续发展。

Spark RDD

RDD是Spark的核心抽象,既可以灵活方便的定义一个计算过程,又可以保证计算过程可以有效的执行。

为什么需要RDD

假设我们实现一些需要循环的计算,比如K-Means和PageRank,使用MapReduce的模型存在什么问题呢?

  • 循环的连续任务之间的关系,只有用户的代码才知道,框架并不知道,因此不能进行任何优化,比如调整寄存器数量等;
  • MapReduce在磁盘持久化中间计算结果,产生了额外的I/O,但对于一个只需要执行几分钟的K-Means计算来说,在这几分钟出现故障的可能性很低,而使用内存保存中间结果是可以大幅降低计算时间的;
  • 在使用高级计算操作,比如join的场景时,不同应用的MapReduce的代码很难复用。
什么是RDD

然后我们看一下RDD(Resilient Distributed Dataset),这里的Resilient和Distributed体现了两个重要的特性:

  • Resilient:能够自动恢复计算过程的错误,并保证计算完成;
  • Distributed:计算过程可以并行执行。

因此RDD的准确定义是一组只读并且支持分区的数据集。每个RDD需要实现的三个接口有:

  • partitions() -> Array[Partition]:可以枚举访问数据集的所有分区。
  /**
   * Get the array of partitions of this RDD, taking into account whether the
   * RDD is checkpointed or not.
   */
  final def partitions: Array[Partition] = {
    checkpointRDD.map(_.partitions).getOrElse {
      if (partitions_ == null) {
        partitions_ = getPartitions
        partitions_.zipWithIndex.foreach { case (partition, index) =>
          require(partition.index == index,
            s"partitions($index).partition == ${partition.index}, but it should equal $index")
        }
      }
      partitions_
    }
  }
  • iterator(p : Partition) -> Iterator:partitions方法将获取到的分区传入到iterator方法,用于遍历分区的数据。
  /**
   * Internal method to this RDD; will read from cache if applicable, or otherwise compute it.
   * This should ''not'' be called by users directly, but is available for implementors of custom
   * subclasses of RDD.
   */
  final def iterator(split: Partition, context: TaskContext): Iterator[T] = {
    if (storageLevel != StorageLevel.NONE) {
      getOrCompute(split, context)
    } else {
      computeOrReadCheckpoint(split, context)
    }
  }
  • dependencies() -> Array[Dependency]:用于定义RDD依赖的parent RDD,创建parent RDD的partition到当前RDD partition的映射。
  /**
   * Get the list of dependencies of this RDD, taking into account whether the
   * RDD is checkpointed or not.
   */
  final def dependencies: Seq[Dependency[_]] = {
    checkpointRDD.map(r => List(new OneToOneDependency(r))).getOrElse {
      if (dependencies_ == null) {
        dependencies_ = getDependencies
      }
      dependencies_
    }
  }

RDD中的数据类型是提前定义好的,比如RDD<String>、RDD<Integer>等。

我们来看一个RDD的实现,假如我们有一个读取HDFS上的二进制文件的RDD:

  • partitions() -> Array[Partition]:
    由于HDFS的每个文件被分为小的blocks,每个blocks适合做为一个partition。因此该方法的实现过程为:从NameNode中查询HDFS文件的block信息,为每个block创建一个partition,返回partition的数组。

  • iterator(p Partition, parents: Array[Iterator[_]]) -> Iterator[Byte]:
    解析partition的block信息,为每个partition创建一个读取文件的Reader对象。

  • dependencies() -> Array[Dependency]:
    读取HDFS文件没有依赖的RDD,因此返回一个空数组。

这里如果文件是由某种Hadoop的文件格式存储,并进行切分的话,切分会使用到一个实现了输入文件切分接口的对象,而且这个对象也会被发送到iterator中用于解析切分后的文件。

再看一个RDD的实现,内存中的数组。如果将整个数组看成一个partition,那么它的三个方法的实现分别为:

  • partitions() -> Array[Partition]:
    返回整个数组作为一个partition。

  • iterator(p: Partition, parents: Array[Iterator[_]]) -> Iterator[T]:
    返回整个数组的遍历器。

  • dependencies() -> Array[Dependency]:
    没有依赖,返回空数组。

如果将数组分成多块,每块为一个partition的话,那么它的三个方法实现如下:

  • partitions() -> Array[Partition]:
    将数组分成N块,每块创建一个partition,返回所有的partitions。

  • iterator(p: Partition, parents: Array[Iterator[_]]) -> Iterator[T]:
    返回数组中一块的遍历器。

  • dependencies() -> Array[Dependency]:
    没有依赖,返回空数组。

使用分块的方法可以使计算并行化,加快计算速度。

小结

本节我们主要介绍了RDD的概念,RDD的实现不仅说明了RDD的分区方式,遍历方式,还说明了它所依赖的RDD的格式,这么做的目的会在后面继续介绍。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,463评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,868评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,213评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,666评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,759评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,725评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,716评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,484评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,928评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,233评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,393评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,073评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,718评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,308评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,538评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,338评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,260评论 2 352