hive笔记(三)

hive交互命令:
  • “-e”不进入hive的交互窗口执行sql语句
    hive -e "select id from default.student;"
  • “-f”执行脚本中sql语句
    1)在/opt/datas目录下创建hivef.sql文件
    touch hivef.sql 文件中写入正确的sql语句
    select *from student;
    2)执行文件中的sql语句 hive -f /opt/datas/hivef.sql
    3)执行文件中的sql语句并将结果写入文件中 hive -f /opt/datas/hivef.sql > /opt/datas/hive_result.txt
  • 查看在hive中输入的所有历史命令
    1) 进入到当前用户的根目录/root或/home/myx01
    2) 查看. hivehistory文件 cat .hivehistory
hive的group by ,sort by,order by ,cluster by,distribute by 五个by的区别:
  • group by: 分组,每个组里面只会显示第一行的数据,分组后select 后边只能写被分组的字段或者聚合函数(avg,count,sum,max,min...)
  1. 计算emp每个部门中每个岗位的最高薪水
    select t.deptno, t.job, max(t.sal) max_sal from emp t group by t.deptno, t.job;
    having语句
    having与where不同点:
    (1)where针对表中的列发挥作用,查询数据;having针对查询结果中的列发挥作用,筛选数据。
    (2)where后面不能写分组函数,而having后面可以使用分组函数。
    (3)having只用于group by分组统计语句
  2. 求每个部门的平均薪水大于2000的部门
    select deptno, avg(sal) avg_sal from emp group by deptno having avg_sal > 2000;
  • sort by : 区内排序 ASC(ascend): 升序(默认),DESC(descend) 降序
  1. 查询员工信息按工资升序排列
    select * from emp order by sal;
  2. 查询员工信息按工资降序排列
    select * from emp order by sal desc;
  3. 按照部门和工资升序排序
    select ename, deptno, sal from emp order by deptno, sal ;
  • order by: 全局排序,由于是全局排序,所以使用order by 的语句只会有一个reduc
  • distribute by: 根据指定字段分区 类似MR中partition,进行分区,结合sort by使用
    注意,Hive要求DISTRIBUTE BY语句要写在SORT BY语句之前。需要提前设定reduce的个数,才能分区成功!
    查看设置reduce个数 set mapreduce.job.reduces;
    设置reduce个数 set.mapreduce.job.reduces=3;
  1. 先按照部门编号分区,再按照员工编号降序排序。
    insert overwrite local directory '/opt/datas/distby-desc' select * from emp distribute by deptno sort by empno desc;
  • cluster by: 分区且排序,其实它是sort by 和distribute by 的结合,当这两个by后边跟的字段是一样时,会使用cluster by 。它的排序方式默认是降序排序。
  1. 以下两种写法等价
    select * from emp cluster by deptno;
    select * from emp distribute by deptno sort by deptno desc;
    注:mr shuffle过程中:有一个分区和排序--->shuffle 中先分区后排序,所以在使用distribute by 和sort by时,应该把distribute by 放在前面。
hive的多表关联

JOIN语句:

  • 等值Join Hive支持通常的SQL JOIN语句,但是只支持等值连接,不支持非等值连接。
  1. 根据员工表和部门表中的部门编号相等,查询员工编号、员工名称和部门编号;
    select e.empno, e.ename, d.deptno, d.dname from emp e join dept d on e.deptno = d.deptno;
  • 内连接 只有进行连接的两个表中都存在与连接条件相匹配的数据才会被保留下来。
    select e.empno, e.ename, d.deptno from emp e join dept d on e.deptno = d.deptno;
  • 左外连接 JOIN操作符左边表中符合WHERE子句的所有记录将会被返回。
    select e.empno, e.ename, d.deptno from emp e left join dept d on e.deptno = d.deptno;
  • 右外连接 JOIN操作符右边表中符合WHERE子句的所有记录将会被返回。
    select e.empno, e.ename, d.deptno from emp e right join dept d on e.deptno = d.deptno;
  • 满外链接 将会返回所有表中符合WHERE语句条件的所有记录。如果任一表的指定字段没有符合条件的值的话,那么就使用NULL值替代。
    select e.empno, e.ename, d.deptno from emp e full join dept d on e.deptno = d.deptno;
  • 多表连接 连接 n个表,至少需要n-1个连接条件。例如:连接三个表,至少需要两个连接条件。
    SELECT e.ename, d.deptno, l. loc_name
    FROM emp e
    JOIN dept d
    ON d.deptno = e.deptno
    JOIN location l
    ON d.loc = l.loc;
    大多数情况下,Hive会对每对JOIN连接对象启动一个MapReduce任务。本例中会首先启动一个MapReduce job对表e和表d进行连接操作,然后会再启动一个MapReduce job将第一个MapReduce job的输出和表l;进行连接操作。
    注意:为什么不是表d和表l先进行连接操作呢?这是因为Hive总是按照从左到右的顺序执行的。
  • 笛卡尔积 JOIN
    1)笛卡尔集会在下面条件下产生:
    (1)省略连接条件
    (2)连接条件无效
    (3)所有表中的所有行互相连接
    select empno, deptno from emp, dept;
    FAILED: SemanticException Column deptno Found in more than One Tables/Subqueries
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,734评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,931评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,133评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,532评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,585评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,462评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,262评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,153评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,587评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,792评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,919评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,635评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,237评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,855评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,983评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,048评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,864评论 2 354

推荐阅读更多精彩内容

  • 1. select * from emp; 2. select empno, ename, job from em...
    海纳百川_4d26阅读 1,905评论 0 4
  • 5.多表查询 多表查询 目的:从多张表获取数据 前提:进行连接的多张表中有共同的列 等连接 通过两个表具有相同意义...
    乔震阅读 1,235评论 0 0
  • SQL ==SQLPLUS== DML(Data Manipulation Language,数据操作语言)---...
    蝌蚪1573阅读 590评论 0 4
  • 引出 •请思考如下问题? –查询所有员工的每个月工资总和,平均工资? –查询工资最高和最低的工资是多少? –查询公...
    C_cole阅读 7,289评论 0 3
  • 去参加关爱自闭症儿童公益活动的那天,我到的有点过早了,所以在必胜客里多坐了会儿。就在我刚坐下来不久,一个六十多...
    楊小夏阅读 217评论 0 1