Hive中除了支持和传统数据库中一样的内关联、左关联、右关联、全关联,还支持LEFT SEMI JOIN和CORSS JOIN,但是这两种JOIN类型也可以用前面的替代。
Hive支持等值连接(a.id=b.id),不支持非等值(a.id>b.id)的连接,这是由于非等值连接非常难以转化为map/reduce任务。此外,Hive支持多于2个以上表之间的join。
写join查询时,需要注意一下几个关键点:
join时,每次map/reduce任务的逻辑:
reducer会缓存join序列中除了最后一个表的所有表的记录,再通过最后一个表将结果序列化到文件系统。这一实现有助于在reduce端减少内存的使用量。实践中,应该把最大的那个表写在最后(否则会因为缓存浪费大量内存)-
LEFT,RIGHT和FULL OUTER关键字用于处理join中空记录的情况
SELECT a.val,b.val FROM a LEFT OUTER JOIN b ON (a.key=b.key)
对所有a表中的记录都有一条记录输出。当a.key=b.key时,输出结果是a.val,b.val;而当b.key中找不到a.key记录时也会输出a.val,NULL
本地模式
set hive.exec.mode.local.auto=true;
inner join:理解为“有效连接”,两张表中都有的数据才会显示
left join:理解为“有左显示”,比如on a.field=b.field,则显示a表中存在的全部数据及a、b中都有的数据,a中有、b中没有的数据以null显示
right join:理解为“有右显示”,比如on a.field=b.field,则显示b表中存在的全部数据及a、b中都有的数据,b中有、a中没有的数据以null显示
full join:理解为“全连接”,两张表中所有数据都显示,实际就是inner +(left-inner)+(right-inner)
left semi join:等同于inner join只取左边表的记录
cross join:慎用,返回的是两张表的笛卡尔积结果,不需要指定关联键。select a.*, b.* from a cross join b;