Hive SQL优化

https://blog.csdn.net/u011500419/article/details/90266428

1.join 时尽量将小表放在前面，减少内存溢出错误的发生概率

①大表join 大表时，key（关联字段）为空值时，会降低效率，一般用子查询先把key值为空的先过滤掉
注：写在关联左侧的表每有1条重复的关联键时底层就会多1次运算处理
②如果空Key不能过滤掉，给key一个随机的值，（注意：不是所有空key给相同的值，太多相同的key会被分配到一个reduce任务里面，造成数据倾斜）

3.避免使用count(distinct)操作，解决方法：先使用group by去重，再count计算。

4.对于事实表，有分区的一定要加分区

最后编辑于：2020.02.23 22:30:01

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

友情链接更多精彩内容

赞1赞

赞赏

手机看全文

Hive SQL优化

相关阅读更多精彩内容

友情链接更多精彩内容