Hive教程 | 从0到1

站内有朋友私信数据产品经理都需要掌握哪些技能和工具,我给他们的回答:1.数据提取得会:hive 2.数据清洗和整理:hive+Excel+Python 3.数据统计分析:Excel+SPSS+Python 4.数据展示:Excel+PPT+tableau

本文开启hive的基础教程和进阶(长更,有需要的朋友收藏便于阅读)

2018.10.06 建表

第一章 表基础操作(DDL操作+DML元数据存储)

1.1创建分区表 注意:set语句中不能有注释

set hive.exec.dynamic.partition.mode=nonstrict; --动态分区

set hive.exec.dynamic.partition=true;  --动态分区(partition的字段是动态查询写入的)

set hive.exec.max.dynamic.partitions=100000; --总共的最大的动态分区数

set hive.exec.max.dynamic.partitions.pernode=100000;--每个节点上能够生成的最大分区,这个在最坏情况下应该是跟最大分区一样的值

set hive.exec.max.created.files=500000;  --是能够创建的最多文件数(分区一多,文件必然就多了...)

CREATE EXTERNAL TABLE IF NOT EXISTS data_zhp( --如果相同名字的表已经存在,则抛出异常;用户可以用 IF NOT EXIST 选项来忽略这个异常

ROWKEY STRING,

STATION INT,

MONTH INT,

DAY INT

HOUR INT ,

MINUTE INT,

)

COMMENT 'ECLP开放预测'

PARTITIONED BY (YEAR INT)

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' --声明文件分隔符

LINES TERMINATED BY '\n' --声明各条记录分隔符

STORED AS TEXTFILE;

--Hive数据文件的存储格式,这里使用的是TEXTFILE,还有SEQUENCEFILE和RCFile,一共三种。

--TEXTFILE是最普通的文件存储格式,内容是可以直接查看。

--SEQUCENFILE是包含键值对的二进制的文件存储格式,支持压缩,可以节省存储空间。是hadoop领域的标准文件格式,但是在hadoop之外却无法使用。

--RCFile是列式存储文件格式,适合压缩处理。对于有成百上千字段的表而言,RCFile更加合适。

 1.2复制空表与复制表及数据

CREATE TABLE sku_id_copy LIKE sku_id;

CREATE TABLE sku_id_copy as

select

*

from sku_id;

2018.10.14 表基础操作增删改

1.3表的增删改

增加一列

ALTER TABLE dev_linshibiao  ADD   COLUMNS (new_col string)

删除dept_id_1\ model列

ALTER TABLE dev_linshibiao  REPLACE COLUMNS (op_time string, dept_name_1string, cw_gmv double)

增加分区

ALTER TABLE dev_linshibiao  ADD   PARTITION (dt=‘2016-06-20’)

删除分区

ALTER TABLE dev_linshibiao  DROP PARTITION (dt=‘2016-06-20’)

删除表

DROP TABLE dev_linshibiao

创建/删除视图

CREATE VIEW [IF NOT EXISTS] view_name [ (column_name [COMMENT column_comment], ...) ][COMMENT view_comment][TBLPROPERTIES (property_name = property_value, ...)] AS SELECT *

如果没有提供表名,视图列的名字将由定义的SELECT表达式自动生成;如果修改基本表的属性,视图中不会体现,无效查询将会失败;视图是只读的,不能用LOAD/INSERT/ALTER

DROP VIEW view_name  删除视图

2018.11.14 表的数据插入

1.4表的插入数据

分区表用overwrite:插入前清空分区

insert overwrite TABLE dev.search_batch_pvuv_zwh partition (dt)

    SELECT  *    FROM XXXXX

不分区的表必须用insert  into

insert  into不清空插入,overwrite插入前清空,表中最后只剩新插入的数据

1.5表加载数据

LOAD DATA LOCAL INPATH './files/XXX.txt' OVERWRITE INTO TABLE XXXX;

--------------我是可爱的分割线,下期预告:查表----------------

没有比人更高的山,比脚更长的路~

第二章 表查询操作(DQL数据查询脚本)

2018.11.28 基本的Select语法

2.1基础查询

SELECT [ALL | DISTINCT] column1, column2, ...

FROM table_XXXX

[WHERE where_aaaa=XXX]

[GROUP BY column1 [HAVING condition]]

[CLUSTER BY column1| [DISTRIBUTE BY column1] [SORT BY | ORDER BY column1]]

[LIMIT number]

1.使用ALL和DISTINCT选项区分对重复记录的处理,默认是ALL,表示查询所有记录;DISTINCT表示去掉重复的记录

2.Where 条件,支持 AND,OR ,between,IN, NOT IN,不支持EXIST ,NOT EXIST

3.ORDER BY与SORT BY的不同,ORDER BY 全局排序,只有一个Reduce任务;SORT BY 只在本机做排序,前者保证在全局进行排序,而后者仅保证在每个reduce内排序,如果有超过1个reduce,sort by可能有部分结果有序

CLUSTER BY 和DISTRIBUTE BY主要用在进行Transform/Map-Reduce脚本。

4.Limit 可以限制查询的记录数,实现Top n查询,一般order by 必须携带limit使用

2.2hive的分区查询

hive表的一个优势便是分区,通过分区可以避免扫全表数据,从而提高数据查询速度,分区限制在where语句中使用

--------------我是可爱的分割线,下期预告:表关联----------------

人的一生,总是为了追寻生命中的光,而走在漫长的旅途中~

第三章 表关联查询

在表设计的过程,考虑表的冗余程度、速度等原因,更多的是面向对象或者面向主题设计,所以需要全面的数据支持,便需要多表关联查询完成。

表的关联的两个手段为JOIN和UNION ALL

3.1 join

常用的join,left outer join ,right outer join , full join ,left semi join

3.1.1 join

Select  a.*  from  tableA  a  join  tableB b  on a.id=b.id

必须等值链接,结果展示a、b表中共有的id部分

3.1.2 left outer join ,right outer join 

Select  a.*  from  tableA  a  left outer join  tableB b  on  a.id=b.id

left outer join


right outer join 

3.1.3 full join

Select  a.*  from  tableA  a  full join  tableB b  on a.id=b.id

full join 

3.1.4 left semi join

Select  a.*  from  tableA  a  left semi join  tableB b  on a.id=b.id

等同于join,但是结果只显示a表中字段

join的注意事项:

1.实践中,应该把数据量最大的那个表写在最后关联;

2.限制 join 的输出,应该在 join前WHERE 子句中写过滤条件,或是在 join 后子句中写

3.可以 join 多于 2 个表

4.join容易将数据重复记录,导致计算最后结果错误

3.2 UNION ALL

相同字段的表直接2表合并

SELECT column_name(s)

FROM table_name1 UNION ALL SELECT column_name(s) FROM table_name2

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,271评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,275评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,151评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,550评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,553评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,559评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,924评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,580评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,826评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,578评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,661评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,363评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,940评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,926评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,156评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,872评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,391评论 2 342

推荐阅读更多精彩内容