Hive Join详解

Join原理

Hive执行引擎会将HQL“翻译”成为MapReduce任务,如果多张表使用同一列做Join,将被“翻译”成一个MapReduce任务,否则会被“翻译”成多个MapReduce任务

例如:以下将被“翻译”成1个MapReduce任务
SELECT talble1.val,table2.val,table3.val from table1 JOIN table2 ON (table1.key=table2.key1) JOIN table3 ON(table3.key = table2.key1)

以下将被“翻译”成2个MapReduce任务
SElECT table1.val,table2.val,table3.val from table1 JOIN table2 ON(table1.key=table2.key1) JOIN table3 ON(table3.key = table2.key2);
很好理解,一般来说(map side join除外)Map过程负责分发数据,具体JOIN操作在Reduce完成,因此,如果多表基于不同的列做JOIN,则无法在一轮MapReduce任务中将所有相关数据Shuffle到同一个Reduce

对于多表JOIN,Hive会将前面的表缓存在Reduce内存中,然后后面的表会流式的进入Reduce和Reduce内存中其他的表做JOIN。例如:
SELECT table1.val,table2.val,table3.val from a JOIN b on (table1.key = table2.key1) JOIN c ON(table3.key = table2.key1)
在Reduce中,table1、table2表等待JOIN的数据会放在内存中,这会引发一些问题,如果Reduce个数不足或者table1,table2表数据过大,可能导致Out of Memory”
因此,需要将数据量最大的表放到最后,或者通过“STREAMTABLE”显示指定Reduce流式读入的表。例如:
SELECT STREAMTABLE(table1) table1.val,table2.val,table3.val from table1 JOIN table2 on (table1.key = table2.key1) JOIN table3 ON(table3.key = table2.key1)
此时,table2、table3表数据在Reduce将放在内存中

外部Join

外部JOIN包括LEFT、RIGHT、FULL OUTER JOIN,其目的是针对不匹配的情况做一些控制。
LEFT OUTER JOIN操作如下:
SELECT table1.val,table2.val from table1 LEFT OUTER JOIN table2 ON (table1.key = table2.key)
如果table1.key中找不到对应的table2.key,则输出“table1.val,NULL”
LEFT OUTER JOIN可以用来代替NOT IN操作,NOT IN在Hive0.8才支持
例如:以下是过滤table2.key为NULL的值
SELECT table1.key from table1 LEFT OUTER JOIN table2 ON(table1.key = table2.key) where table2.key1 IS NOT NULL;
注意:外部JOIN与传统型的数据库相似,可参照mysql进行理解

map端join

假如JOIN两张表,其中有一张表特别小(可以放在内存中),可以使用Map-side JOIN。
Map-Side JOIN是在Mapper中做JOIN,原理是将其中一张JOIN表放到每个Mapper任务的内存中,从而不用Reduce任务,在Mapper中就完成JOIN。
Map-SIde JOIN不适合FULL/RIGHT OUTER JOIN。
示例如下:
SELECT MAPJOIN(b) table1.key,table1.value from a join b on table1.key = table2.key;
join中处理null值的语义区别

SQL标准中,任何对NULL的操作(如数值比较,字符串操作等)结果都为NULL.Hive对NULL值处理的逻辑和标准基本一致,除了JOIN时的特殊逻辑
这里的特殊逻辑是指,Hive的JOIN中作为JOIN Key的字段比较,NULL=NULL是有意义的,且返回值为True。例如:
SELECT user.uid,count(user.uid) from user JOIN class ON(class.uid = user.uid) Group by user.uid;
查询中,user表中为空的记录将和class表中uid为空的记录连接,即以下成立
class.uid = user.uid = NULL
如果需要与标准一致的语义,需要改写查询手动过滤NULL值情况,操作如下
SELECT user.uid,count(user.uid) FROM class JOIN user ON(class.uid = user.uid and class.uid IS NOT NULL and user.uid IS NOT NULL) GROUP BY user.uid
实践中,这一语义区别也是经常导致数据倾斜的原因之一

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,294评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,780评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,001评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,593评论 1 289
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,687评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,679评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,667评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,426评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,872评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,180评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,346评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,019评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,658评论 3 323
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,268评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,495评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,275评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,207评论 2 352

推荐阅读更多精彩内容

  • 50个常用的sql语句Student(S#,Sname,Sage,Ssex) 学生表Course(C#,Cname...
    哈哈海阅读 1,231评论 0 7
  • Hive基础语法 1、创建表 – 用户表 CREATE[EXTERNAL外部表]TABLE[IF NOT EXIS...
    辉格食品阅读 2,115评论 0 3
  • 基础语句 1. 创建数据库 CREATE DATABASE database_name 2. 删除数据库 drop...
    敲代码的本愿阅读 1,021评论 1 7
  • 1. Java基础部分 基础部分的顺序:基本语法,类相关的语法,内部类的语法,继承相关的语法,异常的语法,线程的语...
    子非鱼_t_阅读 31,617评论 18 399
  • 亲爱的CC:你好! 每周六你都很忙,中午小荧星上课,晚上肖肖老师上课。 肖肖老师讲故事那边的课程,顺便还有莉莉老师...
    Leice阅读 229评论 0 1