0.4.SQLboy近期优化案例

1. row_number 数据倾斜

partition的字段,可能是倾斜的,单独领出来,union all俩部分

2. group by数据倾斜

group by 的一些字段存在极端值,比如0 1 null

3. map&reduce数量

reduce有集群默认的最大值,可能不够需要调整,同时map数过大的话,会影响任务

4. join 数据倾斜问题

合理设置map&reduce数量

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 只是从HQL层面介绍一下,日常开发HQL中需要注意的一些优化点,不涉及Hadoop层面的参数、配置等优化。 1.使...
    不二梁阅读 817评论 0 2
  • ODPS(Open Data Processing Service)是一个海量数据处理平台,基于阿里巴巴自主研发的...
    小二上酒8阅读 898评论 0 0
  • Hive基础 Hive简介:(1)hql相对于MR程序没有复杂的代码,上手简单,会写sql的同学,hql也不在...
    Reyn_93阅读 2,517评论 0 5
  • Hive row_number,rank两个函数的区别 窗口函数也称为OLAP(Online Analytical...
    专职掏大粪阅读 568评论 0 0
  • 一、Hive基本概念 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提...
    CJ21阅读 1,783评论 0 13