Spark 数据倾斜问题

1.前提是定位数据倾斜，是 OOM 了，还是任务执行缓慢，看日志，看 WebUI

2.解决方法，有多个方面:

1)避免不必要的 shuffle，如使用广播小表的方式，将 reduce-side-join 提升为 map-side-join

2)分拆发生数据倾斜的记录，分成几个部分进行，然后合并 join 后的结果(借用中间临时表)

3)改变并行度，可能并行度太少了，导致个别 task 数据压力大

4)两阶段聚合，先局部聚合，再全局聚合

5)自定义 paritioner，分散 key 的分布，使其更加均匀

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

Spark数据倾斜问题
什么是数据倾斜在对一个数据集进行并行处理的过程中，当执行Shuffle操作的时候，是通过Key来进行Value的...
hipeer阅读 3,751评论 0赞 0
Spark数据倾斜问题解决以及造成的spark OOM问题
参考资料https://tech.meituan.com/2016/05/12/spark-tuning-pro....
早点起床晒太阳阅读 4,402评论 0赞 0

Spark 常见问题汇总（持续更新）
Spark 通常来说，Spark与MapReduce相比，Spark运行效率更高。请说明效率更高来源于Spark内...
程序员的隐秘角落阅读 7,599评论 0赞 2
Spark--数据倾斜解决方案
数据倾斜分为两大类：聚合倾斜和join倾斜，针对不同的倾斜类型采用不同解决方案数据倾斜解决方案上分为：缓解数据倾...
李小李的路阅读 5,415评论 0赞 19
2022-01-03-Spark-42(数据倾斜问题解决)
现象与原理『不患多而患不均』，这是分布式环境下最大的问题。在进行 shuffle 的时候，不同的key对应的数据...
冰菓_阅读 2,920评论 0赞 0

赞1赞

赞赏

手机看全文