240 发简信
IP属地:上海
  • 记录下本周末搭建个人博客的过程Mac+Hexo+GitHubPages

    前言 之前本来有一个个人博客,但是因为太懒没有维护,就来投奔CSDN了。这几天突然一时兴起,让好好弄一下自己的个人博客,因为CSDN的广告实在是...

  • 如何在Spark-shell中停止打印INFO日志

    前言 在使用Spark-shell做一些测试时候会产生大量无用的INFO级别的日志,因此想把它们给禁用掉。具体方法如下。 解决方法 - 使用自定...

  • 关于Spark中的常见问题及解决方法(5) ——Driver OutOfMemoryError或Driver Unresponsive

    前言 Driver OutOfMemoryError或Driver Unresponsive是一个非常严重的问题,因为它会使我们的Spark应用...

  • 关于Spark中的常见问题及解决方法(3) —— Aggregations操作

    前言 如果你程序中的聚合速度较慢,请先查看 Spark Stragglers/任务执行缓慢部分。 主要症状 在执行 groupby 操作时,任务...

  • Resize,w 360,h 240
    [Spark学习] Spark RDD详解

    什么是RDD RDD(Resilient Distributed Datasets),弹性分布式数据集,是Spark的基本数据结构。它是一个不可...

  • 如何为Spark应用程序分配--num-executors,--execuor-cores和--executor-memory

    前言 在我们提交spark程序时,应该如何为Spark集群配置--num-executors, - executor-memory和--exe...

  • 关于Spark RDD API中的Checkpointing

    什么是Checkpointing Checkpointing可以将RDD从其依赖关系中抽出来,保存到可靠的存储系统(例如HDFS,S3等), 即...

  • 关于Spark Dataset API中的Typed transformations和Untyped transformations

    前言 学习Spark源代码的过程中遇到了Typed transformations和Untyped transformations两个概念,整理...

  • Spark中的多任务处理

    Spark中的多任务处理 Spark的一个非常常见的用例是并行运行许多作业。 构建作业DAG后,Spark将这些任务分配到多个Executor上...