一,背景
最近,在sql开发时,需要以主表a,关联一张空表b,其中a表有10000条数据,因此预计结果是会出现10000条的,但是实际的查询结果一直为0,不符合我们的预期。
二,问题解决
为了更好的模拟还原整个问题,我分别从a,b表中抽取了5条数据,得到两个临时表tmp_xyy1和tmp_xyy2,两个临时表的数据如下(a表有5条数据,b表为空):
tmp_xyy1.prid tmp_xyy1.batch_date
888314 20220720
881775 20220720
880039 20220720
879671 20220720
879401 20220720
tmp_xyy2.prid tmp_xyy2.batch_date
执行的sql其实十分简单,具体如下:
select * from tmp.tmp_xyy1 a
left join tmp.tmp_xyy2 b on a.prid=b.prid
where a.batch_date=20220720 and b.batch_date=20220720;
查看以上代码的执行计划,注意到condition map,居然是 Inner Join 0 to 1,也就是说,以上sql,其实并
不是像我们看起来的那样,走的是left join,而是inner join,如果这样的话,那直接使用Inner join,执行计划会是什么样子的呢?于是
我查了一下inner join的执行计划,使用以下sql:
select * from tmp.tmp_xyy1 a
join tmp.tmp_xyy2 b on a.prid=b.prid
where a.batch_date=20220720 and b.batch_date=20220720;
将结果和第一段sql的执行计划对比,发现执行计划居然是一模一样的,这一下子就很神奇了,已经完全得不到我们想要的结果了,这其中肯定有cbo在起作用,
执行set hive.cbo.enable查看cbo状态,果然值为true。将cbo关闭后,再次执行第一段sql:
select * from tmp.tmp_xyy1 a
left join tmp.tmp_xyy2 b on a.prid=b.prid
where a.batch_date=20220720 and b.batch_date=20220720;
果然,condition map变成了Left Outer Join 0 to 1。但是即使关闭cbo,还是得不到我们想要的结果,因为在最后,还有个predicate (_co16 = 20220720)
。所以总结来说,以上sql是绝对得不到我们想要的结果的,于是,我把where条件后面的b.batch_date=20220720放到了on后面,即如下:
select * from tmp.tmp_xyy1 a
left join tmp.tmp_xyy2 b on a.prid=b.prid and b.batch_date=20220720
where a.batch_date=20220720;
果然,condition map变成了Left Outer Join 0 to 1,并且最后的predicate还没有了,将代码放进去查一下,得到了如下我们想要的结果:
a.prid a.batch_date b.prid b.batch_date
888314 20220720 NULL NULL
881775 20220720 NULL NULL
880039 20220720 NULL NULL
879671 20220720 NULL NULL
879401 20220720 NULL NULL
三,总结
查阅资料并结合执行计划,发现sql中的表关联,on和where对条件的限制作用,差别还是很大的,主要的区别点如下:
1,on条件是在生成临时表时使用的条件,它不管on中的条件是否为真,都会返回左边表中的记录。where条件是在临时表生成好后,再对临时表进行过滤的条件。
这时已经没有left join的含义(必须返回左边表的记录)了,条件不为真的就全部过滤掉。
2,在on后面加条件仅适合用于left join,如果在left join的where后面加从表条件,则在cbo的优化下,结果和inner join是一模一样的,所以从表的条件,一定要
加在on后面,避免得到的结果不符合我们的预期。
3,不考虑where条件下,left join 会把左表所有数据查询出来,on及其后面的条件仅仅会影响右表的数据(符合就显示,不符合全部为null)。
4,where后面加条件与左连接本身无关,影响的是连接产生后的数据。
5,cbo由参数值hive.cbo.enable控制,开启后,执行计划会自动优化,需要注意到优化的两个要点,一个是关联方式condition map,有时left join会变成inner join,
一个是筛选条件predicate,predicate有时会给关联字段加上强制转化,比如UDFToDouble,或者加上科学计数法,导致最终结果不一定使我们想要的。