对于Spark来说有3中Join的实现,每种Join对应着不同的应用场景:
BroadcastHashJoin : 适合一张较小的表和一张大表进行join
ShuffledHashJoin : 适合一张小表和一张大表进行join,或者是两张小表之间的join
SortMergeJoin: 适合两张较大的表之间进行join
面试题
大数据问题,很大的表和小表join怎么优化?
spark有哪几种join,使用场景,以及实现原理
对于Spark来说有3中Join的实现,每种Join对应着不同的应用场景:
BroadcastHashJoin : 适合一张较小的表和一张大表进行join
ShuffledHashJoin : 适合一张小表和一张大表进行join,或者是两张小表之间的join
SortMergeJoin: 适合两张较大的表之间进行join
大数据问题,很大的表和小表join怎么优化?
spark有哪几种join,使用场景,以及实现原理