![Avatar notebook default](https://cdn2.jianshu.io/assets/default_avatar/avatar-notebook-default-640f7dde88592bdf6417d8ce1902636e.png)
4篇文章 · 6219字 · 3人关注
用spark做大数据处理,不怕数据大,就怕发生数据倾斜,一发生数据倾斜,轻则spark job要跑很久才能结束,重则OOM,把一个executo...
Join背景介绍 SQL的所有操作,可以分为简单操作(如过滤where、限制次数limit等)和聚合操作(groupBy,join等)。 其中,...
本教程基于Spark官网的快速入门教程改编而来,官方文档和中文翻译的传送门见最下方。(注意,实际情况可能因为版本不同等原因有所不同) 如果对本文...
Spark是什么? Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎,是一种开源的类Hadoop MapReduce的通...
文集作者