ETL hive update 之 deltamerge 优化

  • full join 横向join ,不能map join 走shuffle
  • row_number() over ( partition by 主键 order by $flag desc) rank ... where rank =1 ,走shufle
select 
  id, 
  order_datekey, 
  f_procurement_order, 
from 
  (
    select 
      id, 
      order_datekey, 
      f_procurement_order, 
    
      row_number() over (
        partition by id 
        order by 
          b_flag_i desc
      ) rank 
    from 
      (
        select 
          id, 
          order_datekey, 
          f_procurement_order, 
          0 b_flag_i 
        from 
          ods_pms_procurement_order_item_hm old 
        WHERE 
          c_t >= 1479916800 
          or u_t >= 1479916800 
        union all 
        select 
          id, 
          order_datekey, 
          f_procurement_order, 
          1 b_flag_i 
        from 
          ods_pms_procurement_order_item_hm_delta_64124FEADBFA9720 new
      ) t
  ) st 
where 
  rank = 1;
  • 差集 + 并集方式 效率最高 前提是增量数据较少,要不也要走shuffle
# semi_1 数据 id , name
1       jx
2       gj

# semi_2数据id, age
1       28
3       30

select a.id,a.name from semi_1 a left anti join semi_2 b on a.id = b.id;
left anti join 是以左表为主,如果join上就返回null,否则返回左表数据。
2       gj

下图a代表完整old 全集,b代表完整new全集,c代表a与b join 上的交集部分(比如id相等的部分)所以思路就是(a-c)+b实现hive 的update


image
SET hive.mapred.mode=nonstrict;
INSERT overwrite TABLE $target.table 
SELECT 
  $stream.format 
FROM 
  $target.table old left anti 
  join ($delta) new on $stream.unique_keys
UNION ALL 
SELECT 
  $stream.format 
FROM 
  $target.table ;
fields = 'id,name'

new = 'new'
old = 'old'
and_str = ' AND '
cmd = []
for field in fields.split(','):
    str = old + '.' + field + ' = ' + new + '.' + field
    cmd.append(str)

print and_str.join(cmd)
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • pyspark.sql模块 模块上下文 Spark SQL和DataFrames的重要类: pyspark.sql...
    mpro阅读 13,167评论 0 13
  • 专业考题类型管理运行工作负责人一般作业考题内容选项A选项B选项C选项D选项E选项F正确答案 变电单选GYSZ本规程...
    小白兔去钓鱼阅读 12,988评论 0 13
  • Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。本...
    felix521阅读 5,111评论 0 0
  • 说明:以下五十个语句都按照测试数据进行过测试,最好每次只单独运行一个语句。 问题及描述: --1.学生表 Stud...
    lijun_m阅读 5,104评论 0 1
  • 1.Hive原理 Hive是构建在Hadoop上的数据仓库软件框架,支持使用SQL来读,写和管理大规模数据集合。H...
    samjinzhang阅读 12,230评论 0 22