on和where的区别以及cbo开启对执行计划的影响

一,背景

最近,在sql开发时,需要以主表a,关联一张空表b,其中a表有10000条数据,因此预计结果是会出现10000条的,但是实际的查询结果一直为0,不符合我们的预期。

二,问题解决

为了更好的模拟还原整个问题,我分别从a,b表中抽取了5条数据,得到两个临时表tmp_xyy1和tmp_xyy2,两个临时表的数据如下(a表有5条数据,b表为空):

tmp_xyy1.prid  tmp_xyy1.batch_date

888314 20220720

881775 20220720

880039 20220720

879671 20220720

879401 20220720

tmp_xyy2.prid  tmp_xyy2.batch_date

执行的sql其实十分简单,具体如下:

select * from tmp.tmp_xyy1 a

left join tmp.tmp_xyy2 b on a.prid=b.prid

where a.batch_date=20220720 and b.batch_date=20220720;

查看以上代码的执行计划,注意到condition map,居然是 Inner Join 0 to 1,也就是说,以上sql,其实并

不是像我们看起来的那样,走的是left join,而是inner join,如果这样的话,那直接使用Inner join,执行计划会是什么样子的呢?于是

我查了一下inner join的执行计划,使用以下sql:

select * from tmp.tmp_xyy1 a

join tmp.tmp_xyy2 b on a.prid=b.prid

where a.batch_date=20220720 and b.batch_date=20220720;

将结果和第一段sql的执行计划对比,发现执行计划居然是一模一样的,这一下子就很神奇了,已经完全得不到我们想要的结果了,这其中肯定有cbo在起作用,

执行set hive.cbo.enable查看cbo状态,果然值为true。将cbo关闭后,再次执行第一段sql:

select * from tmp.tmp_xyy1 a

left join tmp.tmp_xyy2 b on a.prid=b.prid

where a.batch_date=20220720 and b.batch_date=20220720;

果然,condition map变成了Left Outer Join 0 to 1。但是即使关闭cbo,还是得不到我们想要的结果,因为在最后,还有个predicate (_co16 = 20220720)

。所以总结来说,以上sql是绝对得不到我们想要的结果的,于是,我把where条件后面的b.batch_date=20220720放到了on后面,即如下:

select * from tmp.tmp_xyy1 a

left join tmp.tmp_xyy2 b on a.prid=b.prid  and b.batch_date=20220720

where a.batch_date=20220720;

果然,condition map变成了Left Outer Join 0 to 1,并且最后的predicate还没有了,将代码放进去查一下,得到了如下我们想要的结果:

a.prid a.batch_date b.prid b.batch_date

888314 20220720 NULL NULL

881775 20220720 NULL NULL

880039 20220720 NULL NULL

879671 20220720 NULL NULL

879401 20220720 NULL NULL

三,总结

查阅资料并结合执行计划,发现sql中的表关联,on和where对条件的限制作用,差别还是很大的,主要的区别点如下:

1,on条件是在生成临时表时使用的条件,它不管on中的条件是否为真,都会返回左边表中的记录。where条件是在临时表生成好后,再对临时表进行过滤的条件。

这时已经没有left join的含义(必须返回左边表的记录)了,条件不为真的就全部过滤掉。

2,在on后面加条件仅适合用于left join,如果在left join的where后面加从表条件,则在cbo的优化下,结果和inner join是一模一样的,所以从表的条件,一定要

加在on后面,避免得到的结果不符合我们的预期。

3,不考虑where条件下,left join 会把左表所有数据查询出来,on及其后面的条件仅仅会影响右表的数据(符合就显示,不符合全部为null)。

4,where后面加条件与左连接本身无关,影响的是连接产生后的数据。

5,cbo由参数值hive.cbo.enable控制,开启后,执行计划会自动优化,需要注意到优化的两个要点,一个是关联方式condition map,有时left join会变成inner join,

一个是筛选条件predicate,predicate有时会给关联字段加上强制转化,比如UDFToDouble,或者加上科学计数法,导致最终结果不一定使我们想要的。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容