Avatar notebook default
8篇文章 · 6172字 · 1人关注
  • Spark—运行时架构

    Spark运行架构 术语定义 Client:客户端进程,负责提交作业到Master。 Master:Standalone模式中主控节点,负责接收...

  • Resize,w 360,h 240
    Spark--基于分区进行操作

    基于分区进行操作 场景 Spark提供了map操作,map操作是对每一个元素进行函数操作。但是如果需求中有分配操作(比如获取数据库链接)此时就没...

  • Spark—广播变量

    广播变量 Spark有两种共享变量——累加器、广播变量。广播变量可以让程序高效地向所有工作节点发送一个较大的只读值,以供一个或多个Spark操作...

  • Resize,w 360,h 240
    Spark—累加器

    spark累加器 累加器是一种共享变量,提供了将工作节点中的值聚合到驱动器程序中的简单语法。累加器的一个常见用途是在调试时对作业执行过程中的事件...

  • Resize,w 360,h 240
    Spark--map与flatMap的区别

    Spark之中map与flatMap的区别 一直不太明白spark之中map与flatMap之间的区别。map的作用很容易理解就是对rdd之中的...

  • Resize,w 360,h 240
    Spark-RDD分区

    RDD分区 在分布式程序中,通信的代价是很大的,因此控制数据分布以获得最少的网络传输可以极大地提升整体性能。所以对RDD进行分区的目的就是减少网...

  • Resize,w 360,h 240
    Spark Pair RDD基本操作

    Pair RDD基本操作 虽然大部分Spark的RDD操作都支持所有种类的对象,但是有少部分特殊的操作只能作用于键值对类型的RDD。这类操作中最...

  • Spark RDD编程

    Spark RDD编程 概述 从高层次上来看,每一个Spark应用都包含一个驱动程序,用于执行用户的main函数以及在集群上运行各种并行操作。S...

文集作者