
在运行 Spark 应用程序的时候,Driver 会提供一个 WebUI 用于展现应用程序的运行信息,但是这个服务是伴随 Spark 应用程序的...
Spark 编程模型有两个主要的抽象,第一个是弹性数据集 RDD(Resilient Distributed Dataset),第二个是共享变量...
在使用 Apache Spark 的时候,作业会以分布式的方式在不同的节点上运行;特别是当集群的规模很大时,集群的节点出现各种问题是很常见的,比...
Spark Network 模块分析 为什么用Netty通信框架代替Akka 一直以来,基于Akka实现的RPC通信框架是Spark引以为豪的主...
对一些SparkSQL任务,可以通过缓存数据、调优参数、增加并行度提升性能 缓存数据sqlContext.cacheTable("tableNa...
Spark运行原理 构建应用程序运行时 首先根据应用程序资源需求构建一个运行时环境,通过与资源管理器交互来完成,通常存在两种方式:粗粒度,应用程...
Spark基本组件,Master和Worker,负责运行Client和Driver 每个SparkApplication由主控节点Master、...
Spark进行IO不仅考虑本地开销,还有数据在不同主机之间的开销,同时对数据的寻址方式也要改变,以应对大数据 序列化- 用于进程间通信,不同节点...
Action算子 无输出 foreach对RDD每个元素执行函数f,不反悔RDD和Array,而是返回Unit 输出到HDFS saveAsTe...
文集作者