join

1)Map-side Join
Map-side Join使用场景是一个大表和一个小表的连接操作,其中,“小表”是指文件足够小,可以加载到内存中。该算法可以将join算子执行在Map端,无需经历shuffle和reduce等阶段,因此效率非常高。
2)Reduce-side Join
当两个文件/目录中的数据非常大,难以将某一个存放到内存中时,Reduce-side Join是一种解决思路。该算法需要通过Map和Reduce两个阶段完成,在Map阶段,将key相同的记录划分给同一个Reduce Task(需标记每条记录的来源,便于在Reduce阶段合并),在Reduce阶段,对key相同的进行合并。

df广播使用方法,网友blog
http://www.jianshu.com/p/2c7689294a73

Screen Shot 2017-06-17 at 10.27.51 AM.png

rdd 广播

val arr = rdd.collect
val broadcatRes = sc.broadcast(arr) //数据字典广播

在用的时候

rdd.map(t =>
val index = binarySearch(broadcastRes.value,t)
val info = broadcastRes.value(index)
info
)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容