登录注册写文章

黑猴子的家：数据倾斜&Distributedcache

黑猴子的家

黑猴子的家：数据倾斜&Distributedcache

1、数据倾斜原因

如果是多张表的操作都是在reduce阶段完成，reduce端的处理压力太大，map节点的运算负载则很低，资源利用率不高，且在reduce阶段极易产生数据倾斜。

2、实操案例：

数据倾斜案例续写

3、解决方案

在map端缓存多张表，提前处理业务逻辑，这样增加map端业务，减少reduce端数据的压力，尽可能的减少数据倾斜。

4、具体办法：采用distributedcache

（1）在mapper的setup阶段，将文件读取到缓存集合中
（2）在驱动函数中加载缓存。
// 缓存普通文件到task运行
job.addCacheFile(new URI("file:/e:/mapjoincache/pd.txt"));节点

5、实操案例

distributedcache案例续写..

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

##数据仓库中的SQL性能优化（Hive篇）
数据仓库中的SQL性能优化（Hive篇） - 简书 http://www.jianshu.com/p/808a5...
葡萄喃喃呓语阅读 4,703评论 0赞 31
117道有关大数据面试题解析，希望对你有所帮助
一.简述如何安装配置apache 的一个开源的hadoop 1.使用root账户登陆 2.修改ip 3.修改hos...
栀子花_ef39阅读 5,055评论 0赞 52

致•未来
泪水模糊了双眼看不清你的身影在这些触摸不到你的日子里我的人生忽然感到了迷茫我不知道你在哪但我相信总有一天...
樱桃Cheery阅读 213评论 0赞 1
0819火车上所思
以前总想去大城市看看，想感受下大城市的生活。因为各种各样的原因始终没有去成，毕业后选择了在合肥就业，又因工作...
岸远_水声微阅读 202评论 0赞 0
新发现的开源之路
今天中午吃饭的时候和大姑子说了，准备帮她微信上卖茶叶，赚点儿零花钱，她倒是很爽快的答应了，不过和我说可以开个淘宝店...
凌波微步007阅读 224评论 0赞 0

友情链接更多精彩内容

8赞9赞

手机看全文