Avatar notebook default
4篇文章 · 6219字 · 3人关注
  • Resize,w 360,h 240
    可视化发现Spark数据倾斜

    用spark做大数据处理,不怕数据大,就怕发生数据倾斜,一发生数据倾斜,轻则spark job要跑很久才能结束,重则OOM,把一个executo...

  • Resize,w 360,h 240
    Spark难点解析:Join实现原理

    Join背景介绍 SQL的所有操作,可以分为简单操作(如过滤where、限制次数limit等)和聚合操作(groupBy,join等)。 其中,...

  • Spark编程快速入门

    本教程基于Spark官网的快速入门教程改编而来,官方文档和中文翻译的传送门见最下方。(注意,实际情况可能因为版本不同等原因有所不同) 如果对本文...

  • Resize,w 360,h 240
    五分钟大数据:Spark入门

    Spark是什么? Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎,是一种开源的类Hadoop MapReduce的通...

文集作者