(二)Hive运行机制与使用

hive介绍
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

hive的运行机制
图示


image.png

假设我在hive命令行客户端使用创建了一个数据库(database)myhive,接着又在该数据库中创建了一张表emp。

create database myhive;
use myhive;
create table emp(id int,name string);

那么hive会将元数据存储在数据库中。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。
hive是基于hadoop的,所以数据库和表均表现在hdfs上的目录,数据信息当然也是存储在hdfs上。
对于上面的库和表来说,会在hdfs上创建/user/hive/warehouse/myhive.db这样的目录结构,而表的信息则可以自己上传个文件比如图中的emp.data到/user/hive/warehouse/myhive.db目录下。那么就可以写sql进行查询了(注:写查询语句写的是myhive这张表不删emp.data,如select * from myhive,但是查询到的是emp.data中的信息,两者结合可以理解为传统数据库的某张表),而这些元数据信息都会存储到外部的数据库中(如mysql,当然也可以使用内嵌的derby,不推荐使用derby毕竟是内嵌的不能共享信息)。
然后我再写个查询语句

select id,name from emp where id>2 order by id desc;

那么是怎么执行的呢?查询语句交给hive,hive利用解析器、优化器等(图中表示Compiler),调用mapreduce模板,形成计划,生成的查询计划存储在 HDFS 中,随后由Mapreduce程序调用,提交给job放在Yarn上运行。

hive与mapreduce关系
image.png
hive的数据存储

1、Hive中所有的数据都存储在 HDFS 中,没有专门的数据存储格式(可支持Text,SequenceFile,ParquetFile,RCFILE等)
2、只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符,Hive 就可以解析数据。
3、Hive 中包含以下数据模型:DB、Table,External Table,Partition,Bucket。
db:在hdfs中表现为${hive.metastore.warehouse.dir}目录下一个文件夹
table:在hdfs中表现所属db目录下一个文件夹
external table:外部表, 与table类似,不过其数据存放位置可以在任意指定路径
普通表: 删除表后, hdfs上的文件都删了
External外部表删除后, hdfs上的文件没有删除, 只是把文件删除了
partition:在hdfs中表现为table目录下的子目录
bucket:桶, 在hdfs中表现为同一个表目录下根据hash散列之后的多个文件, 会根据不同的文件把数据放到不同的文件中

理论总让人头昏,下面介绍hive的初步使用上面的自然就明白了。

hive的使用

虽然可以使用hive与shell交互的方式启动hive

[root@mini1 ~]# cd apps/hive/bin
[root@mini1 bin]# ll
总用量 32
-rwxr-xr-x. 1 root root 1031 4月  30 2015 beeline
drwxr-xr-x. 3 root root 4096 10月 17 12:38 ext
-rwxr-xr-x. 1 root root 7844 5月   8 2015 hive
-rwxr-xr-x. 1 root root 1900 4月  30 2015 hive-config.sh
-rwxr-xr-x. 1 root root  885 4月  30 2015 hiveserver2
-rwxr-xr-x. 1 root root  832 4月  30 2015 metatool
-rwxr-xr-x. 1 root root  884 4月  30 2015 schematool
[root@mini1 bin]# ./hive
hive>

但是界面并不好看,而hive也可以发布为服务(Hive thrift服务),然后可以使用hive自带的beeline去连接。如下

窗口1,开启服务

[root@hadoop01 bin]# ./hiveserver2 
18/09/24 23:37:47 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
18/09/24 23:37:47 WARN conf.HiveConf: HiveConf of name hive.server2.thrift.client.user does not exist
18/09/24 23:37:47 WARN conf.HiveConf: HiveConf of name hive.server2.thrift.client.password does not exist

窗口2,作为客户端连接

[root@hadoop01 bin]# ./beeline 
Beeline version 1.2.1 by Apache Hive
beeline> !connect jdbc:hive2://localhost:10000
Connecting to jdbc:hive2://localhost:10000
Enter username for jdbc:hive2://localhost:10000: root
Enter password for jdbc:hive2://localhost:10000: ****
Connected to: Apache Hive (version 1.2.1)
Driver: Hive JDBC (version 1.2.1)
Transaction isolation: TRANSACTION_REPEATABLE_READ
0: jdbc:hive2://localhost:10000> 
下面进行简单使用,感觉下使用sql的舒适吧

1、查看数据库

0: jdbc:hive2://localhost:10000> show databases;
+----------------+--+
| database_name  |
+----------------+--+
| default        |
+----------------+--+
1 row selected (1.456 seconds)

2、创建并使用数据库,查看表

0: jdbc:hive2://localhost:10000> show databases;
+----------------+--+
| database_name  |
+----------------+--+
| default        |
+----------------+--+
1 row selected (2.415 seconds)
0: jdbc:hive2://localhost:10000> create database myhive;
No rows affected (0.361 seconds)
0: jdbc:hive2://localhost:10000> show databases;
+----------------+--+
| database_name  |
+----------------+--+
| default        |
| myhive         |
+----------------+--+
2 rows selected (0.101 seconds)
0: jdbc:hive2://localhost:10000> use myhive;
No rows affected (0.073 seconds)
0: jdbc:hive2://localhost:10000> show tables;
+-----------+--+
| tab_name  |
+-----------+--+
+-----------+--+
No rows selected (0.119 seconds)
0: jdbc:hive2://localhost:10000> show databases;
+----------------+--+
| database_name  |
+----------------+--+
| default        |
| myhive         |
+----------------+--+
2 rows selected (0.074 seconds)
0: jdbc:hive2://localhost:10000> create table emp123(id int,name string);
No rows affected (0.54 seconds)
0: jdbc:hive2://localhost:10000> show tables;
+-----------+--+
| tab_name  |
+-----------+--+
| emp123    |
+-----------+--+
1 row selected (0.095 seconds)
image.png
0: jdbc:hive2://localhost:10000> create table emp000(id int,name string) row format delimited fields terminated by ',';
No rows affected (0.18 seconds)
[root@hadoop01 ~]# hadoop fs -put hivedemo.data /user/hive/warehouse/myhive.db/emp000
0: jdbc:hive2://localhost:10000> select * from emp000;
+------------+--------------+--+
| emp000.id  | emp000.name  |
+------------+--------------+--+
| 1          | zhangsan     |
| 2          | lisi         |
| 3          | wangwu       |
| 4          | furong       |
| 5          | fengjie      |
+------------+--------------+--+
5 rows selected (0.815 seconds)
0: jdbc:hive2://localhost:10000> 

3、加载文件信息到表中
前面使用了hadoop命令将文件上传到了表对应的目录下,但是也可以在命令行下直接导入文件信息

[root@hadoop01 ~]# cat hivedemo2.txt
1,zhang
2,li
3,wang
4,fu
5,feng
0: jdbc:hive2://localhost:10000> load data local inpath '/root/hivedemo2.txt' into table emp000;
INFO  : Loading data to table myhive.emp000 from file:/root/hivedemo2.txt
INFO  : Table myhive.emp000 stats: [numFiles=2, totalSize=78]
No rows affected (0.615 seconds)
0: jdbc:hive2://localhost:10000> select * from emp000;
+------------+--------------+--+
| emp000.id  | emp000.name  |
+------------+--------------+--+
| 1          | zhangsan     |
| 2          | lisi         |
| 3          | wangwu       |
| 4          | furong       |
| 5          | fengjie      |
| 1          | zhang        |
| 2          | li           |
| 3          | wang         |
| 4          | fu           |
| 5          | feng         |
+------------+--------------+--+
10 rows selected (0.177 seconds)

4、表分区,分区字段为school,导入数据到2个不同的分区中

0: jdbc:hive2://localhost:10000> load data local inpath '/root/hivedemo.data' into table stu partition(school='neu');
INFO  : Loading data to table myhive.stu partition (school=neu) from file:/root/hivedemo.data
INFO  : Partition myhive.stu{school=neu} stats: [numFiles=1, numRows=0, totalSize=46, rawDataSize=0]
No rows affected (0.635 seconds)
0: jdbc:hive2://localhost:10000> load data local inpath '/root/hivedemo2.txt' into table stu partition(school='HIT');
INFO  : Loading data to table myhive.stu partition (school=HIT) from file:/root/hivedemo2.txt
INFO  : Partition myhive.stu{school=HIT} stats: [numFiles=1, numRows=0, totalSize=32, rawDataSize=0]
No rows affected (0.557 seconds)
0: jdbc:hive2://localhost:10000> select * from stu;
+---------+-----------+-------------+--+
| stu.id  | stu.name  | stu.school  |
+---------+-----------+-------------+--+
| 1       | zhang     | HIT         |
| 2       | li        | HIT         |
| 3       | wang      | HIT         |
| 4       | fu        | HIT         |
| 5       | feng      | HIT         |
| 1       | zhangsan  | neu         |
| 2       | lisi      | neu         |
| 3       | wangwu    | neu         |
| 4       | furong    | neu         |
| 5       | fengjie   | neu         |
+---------+-----------+-------------+--+
10 rows selected (0.207 seconds)
0: jdbc:hive2://localhost:10000> alter table stu add partition (school='Tokyo');
No rows affected (0.165 seconds)
0: jdbc:hive2://localhost:10000> select * from stu;
+---------+-----------+-------------+--+
| stu.id  | stu.name  | stu.school  |
+---------+-----------+-------------+--+
| 1       | zhang     | HIT         |
| 2       | li        | HIT         |
| 3       | wang      | HIT         |
| 4       | fu        | HIT         |
| 5       | feng      | HIT         |
| 1       | zhangsan  | neu         |
| 2       | lisi      | neu         |
| 3       | wangwu    | neu         |
| 4       | furong    | neu         |
| 5       | fengjie   | neu         |
+---------+-----------+-------------+--+
10 rows selected (0.162 seconds)
image.png

hive元数据表说明
https://blog.csdn.net/haozhugogo/article/details/73274832

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 222,183评论 6 516
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,850评论 3 399
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 168,766评论 0 361
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,854评论 1 299
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,871评论 6 398
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,457评论 1 311
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,999评论 3 422
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,914评论 0 277
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,465评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,543评论 3 342
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,675评论 1 353
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,354评论 5 351
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 42,029评论 3 335
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,514评论 0 25
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,616评论 1 274
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 49,091评论 3 378
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,685评论 2 360

推荐阅读更多精彩内容