on和where的区别以及cbo开启对执行计划的影响

一,背景

最近,在sql开发时,需要以主表a,关联一张空表b,其中a表有10000条数据,因此预计结果是会出现10000条的,但是实际的查询结果一直为0,不符合我们的预期。

二,问题解决

为了更好的模拟还原整个问题,我分别从a,b表中抽取了5条数据,得到两个临时表tmp_xyy1和tmp_xyy2,两个临时表的数据如下(a表有5条数据,b表为空):

tmp_xyy1.prid  tmp_xyy1.batch_date

888314 20220720

881775 20220720

880039 20220720

879671 20220720

879401 20220720

tmp_xyy2.prid  tmp_xyy2.batch_date

执行的sql其实十分简单,具体如下:

select * from tmp.tmp_xyy1 a

left join tmp.tmp_xyy2 b on a.prid=b.prid

where a.batch_date=20220720 and b.batch_date=20220720;

查看以上代码的执行计划,注意到condition map,居然是 Inner Join 0 to 1,也就是说,以上sql,其实并

不是像我们看起来的那样,走的是left join,而是inner join,如果这样的话,那直接使用Inner join,执行计划会是什么样子的呢?于是

我查了一下inner join的执行计划,使用以下sql:

select * from tmp.tmp_xyy1 a

join tmp.tmp_xyy2 b on a.prid=b.prid

where a.batch_date=20220720 and b.batch_date=20220720;

将结果和第一段sql的执行计划对比,发现执行计划居然是一模一样的,这一下子就很神奇了,已经完全得不到我们想要的结果了,这其中肯定有cbo在起作用,

执行set hive.cbo.enable查看cbo状态,果然值为true。将cbo关闭后,再次执行第一段sql:

select * from tmp.tmp_xyy1 a

left join tmp.tmp_xyy2 b on a.prid=b.prid

where a.batch_date=20220720 and b.batch_date=20220720;

果然,condition map变成了Left Outer Join 0 to 1。但是即使关闭cbo,还是得不到我们想要的结果,因为在最后,还有个predicate (_co16 = 20220720)

。所以总结来说,以上sql是绝对得不到我们想要的结果的,于是,我把where条件后面的b.batch_date=20220720放到了on后面,即如下:

select * from tmp.tmp_xyy1 a

left join tmp.tmp_xyy2 b on a.prid=b.prid  and b.batch_date=20220720

where a.batch_date=20220720;

果然,condition map变成了Left Outer Join 0 to 1,并且最后的predicate还没有了,将代码放进去查一下,得到了如下我们想要的结果:

a.prid a.batch_date b.prid b.batch_date

888314 20220720 NULL NULL

881775 20220720 NULL NULL

880039 20220720 NULL NULL

879671 20220720 NULL NULL

879401 20220720 NULL NULL

三,总结

查阅资料并结合执行计划,发现sql中的表关联,on和where对条件的限制作用,差别还是很大的,主要的区别点如下:

1,on条件是在生成临时表时使用的条件,它不管on中的条件是否为真,都会返回左边表中的记录。where条件是在临时表生成好后,再对临时表进行过滤的条件。

这时已经没有left join的含义(必须返回左边表的记录)了,条件不为真的就全部过滤掉。

2,在on后面加条件仅适合用于left join,如果在left join的where后面加从表条件,则在cbo的优化下,结果和inner join是一模一样的,所以从表的条件,一定要

加在on后面,避免得到的结果不符合我们的预期。

3,不考虑where条件下,left join 会把左表所有数据查询出来,on及其后面的条件仅仅会影响右表的数据(符合就显示,不符合全部为null)。

4,where后面加条件与左连接本身无关,影响的是连接产生后的数据。

5,cbo由参数值hive.cbo.enable控制,开启后,执行计划会自动优化,需要注意到优化的两个要点,一个是关联方式condition map,有时left join会变成inner join,

一个是筛选条件predicate,predicate有时会给关联字段加上强制转化,比如UDFToDouble,或者加上科学计数法,导致最终结果不一定使我们想要的。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,125评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,293评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,054评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,077评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,096评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,062评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,988评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,817评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,266评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,486评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,646评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,375评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,974评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,621评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,642评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,538评论 2 352

推荐阅读更多精彩内容