Avatar notebook default
19篇文章 · 25246字 · 3人关注
  • Spark History Server

    在运行 Spark 应用程序的时候,Driver 会提供一个 WebUI 用于展现应用程序的运行信息,但是这个服务是伴随 Spark 应用程序的...

  • Spark 编程模型 RDD

    Spark 编程模型有两个主要的抽象,第一个是弹性数据集 RDD(Resilient Distributed Dataset),第二个是共享变量...

  • Resize,w 360,h 240
    Apache Spark 黑名单(Blacklist)机制介绍

    在使用 Apache Spark 的时候,作业会以分布式的方式在不同的节点上运行;特别是当集群的规模很大时,集群的节点出现各种问题是很常见的,比...

  • Resize,w 360,h 240
    Spark通信框架Spark Network Common

    Spark Network 模块分析 为什么用Netty通信框架代替Akka 一直以来,基于Akka实现的RPC通信框架是Spark引以为豪的主...

  • SparkSQL 调优

    对一些SparkSQL任务,可以通过缓存数据、调优参数、增加并行度提升性能 缓存数据sqlContext.cacheTable("tableNa...

  • Resize,w 360,h 240
    Spark 运行时环境

    Spark运行原理 构建应用程序运行时 首先根据应用程序资源需求构建一个运行时环境,通过与资源管理器交互来完成,通常存在两种方式:粗粒度,应用程...

  • Resize,w 360,h 240
    Spark 作业执行

    Spark基本组件,Master和Worker,负责运行Client和Driver 每个SparkApplication由主控节点Master、...

  • Resize,w 360,h 240
    Spark IO机制

    Spark进行IO不仅考虑本地开销,还有数据在不同主机之间的开销,同时对数据的寻址方式也要改变,以应对大数据 序列化- 用于进程间通信,不同节点...

  • Resize,w 360,h 240
    Spark 算子- Action

    Action算子 无输出 foreach对RDD每个元素执行函数f,不反悔RDD和Array,而是返回Unit 输出到HDFS saveAsTe...

文集作者