什么是Checkpointing Checkpointing可以将RDD从其依赖关系中抽出来,保存到可靠的存储系统(例如HDFS,S3等), 即...
什么是Checkpointing Checkpointing可以将RDD从其依赖关系中抽出来,保存到可靠的存储系统(例如HDFS,S3等), 即...
前言 如果你程序中的聚合速度较慢,请先查看 Spark Stragglers/任务执行缓慢部分。 主要症状 在执行 groupby 操作时,任务...
前言 在使用Spark-shell做一些测试时候会产生大量无用的INFO级别的日志,因此想把它们给禁用掉。具体方法如下。 解决方法 - 使用自定...
前言 Driver OutOfMemoryError或Driver Unresponsive是一个非常严重的问题,因为它会使我们的Spark应用...
什么是RDD RDD(Resilient Distributed Datasets),弹性分布式数据集,是Spark的基本数据结构。它是一个不可...
前言 在我们提交spark程序时,应该如何为Spark集群配置--num-executors, - executor-memory和--exe...
前言 学习Spark源代码的过程中遇到了Typed transformations和Untyped transformations两个概念,整理...
Apache Spark Apache Spark是一个开源的分布式通用计算框架,具有(大部分)内存数据处理引擎,可以对大量的数据静态或者动态地...
Spark应用程序剖析 每个Spark应用程序都从创建SparkContext开始。 若没有SparkContext,则不能启动计算(如Spar...
Spark Application’s Configuration 提示:有关如何配置Spark和用户程序的详细信息,请参阅官方文档中的Spar...
专题公告
整理Spark学习中遇到的问题