Hive SQL优化

https://blog.csdn.net/u011500419/article/details/90266428

1.join 时 尽量将小表放在前面,减少内存溢出错误的发生概率

①大表join 大表时,key(关联字段)为空值时,会降低效率,一般用子查询先把key值为空的先过滤掉
注:写在关联左侧的表每有1条重复的关联键时底层就会多1次运算处理
②如果空Key不能过滤掉,给key一个随机的值,(注意:不是所有空key给相同的值,太多相同的key会被分配到一个reduce任务里面,造成数据倾斜)

3.避免使用count(distinct)操作, 解决方法:先使用group by去重,再count计算。

4.对于事实表,有分区的一定要加分区

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 数据倾斜万能的方法:hive.groupby.skewindata=true这个环境变量是用于控制负载均衡 案例:...
    进击的小恶魔阅读 634评论 0 0
  • 排序选择 cluster by:对同一字段分桶并排序,不能和 sort by 连用 distribute by +...
    博弈史密斯阅读 1,077评论 0 0
  • hive优化总结 - 上帝之手 - 博客频道 - CSDN.NET http://blog.csdn.net/p...
    葡萄喃喃呓语阅读 907评论 0 2
  • 原创链接 一、Java面试题java有多重要,对于做android的我们,不需要多说了,let’s go (1)J...
    李福来阅读 2,421评论 0 5
  • 所有人都有眼睛,不是所有人都有眼光! 所有人都有手不是所有人都能抓住机遇! 所有人都有脑,不是所有人都有智慧! 5...
    大道無门阅读 333评论 0 0

友情链接更多精彩内容