Hive数据类型和DDL操作

hive命令

在安装Hive的Linux服务器终端中直接输入如下命令,可以查看帮助信息:

# hive -help
Hive使用01.png

常用的如-e、-f参数。
使用-e参数,可以直接在命令行传递SQL语句进行hive表数据的查询:

# hive -e "select * from testhive.testtable"
Hive使用02.png

使用-f参数,可以在命令行中传递文件进行进行hive表数据的查询,首先使用如下命令创建一个名为test.hql的文件:

# vim test.hql

在该文件中写入SQL语句:

select * from testhive.testtable

然后在Linux命令行执行如下命令:

# hive -f test.hql
Hive使用03.png

并且该执行查询的结果可以追加到文件中:

# hive -f test.hql > result.txt
# cat result.txt
Hive使用04.png

执行如下命令,可以查看hive中执行过的所有历史命令:

# cat .hivehistory
Hive使用05.png

Hive的其他配置

现在hive查询出来的数据显示很不友好,为了显示数据头信息,通过如下配置文件项开启配置:

<property>
  <name>hive.cli.print.header</name>
  <value>true</value>
</property>
Hive使用06.png

在Hive客户端中时,为了显示当前操作哪个数据库,通过如下配置文件项开启配置:

<property>
  <name>hive.cli.print.current.db</name>
  <value>true</value>
</property>
Hive使用07.png

Hive使用08.png

Hive的set

在Hive的客户端中,可以使用set命令进行配置,该配置当前操作有效:

hive (default)> set hive.cli.print.current.db=false;
Hive使用09.png

关闭了当前操作的数据库位置显示。

Hive的数据类型

基本数据类型

Hive的数据类型与Java的数据类型对应关系:

Hive数据类型 Java数据类型 描述
TINYINT byte 1byte整数
SMALLINT short 2byte整数
INT int 4byte整数
BIGINT long 8byte整数
BOOLEAN boolean true/false
FLOAT float 单精度浮点数
DOUBLE double 双精度浮点数
STRING string 字符,可以用单引号或双引号
TIMESTAMP 时间类型
BINARY 字节数组

集合数据类型

数据类型 描述
STRUCT 结构体,通过“点”符号访问元素内容
MAP 一组键-值对元祖集合,使用数组表示法可以访问数据
ARRAY 是一组具有想同类型和名称的变量的集合

DDL操作

DDL(Data Definition Language:数据定义语言)主要是用在定义表结构、改变表的结构、改变表数据类型、改变表之间的链接和约束等。

创建数据库

创建一个数据库:

 > create database db_testdb;

若创建的数据库已经存在,则会报错,这时可以使用if not exists判断:

> create database if not exists db_testdb;

Hive使用10.png


标准写法是使用if not exists判断的创建数据库语句。

查询数据库

查询Hive中的数据库:

> show databases;

查询数据库信息:

> desc database db_testdb;

查询数据库详细信息(数据库有额外的属性时):

> desc database extended db_testdb;

切换数据库:

> use testhive;
Hive使用11.png

删除数据库

删除空的数据库:

> drop database db_testdb;

若删除的数据库不存在,则会报错,这时可以使用if exists判断:

drop database if exists db_testdb;

使用cascade,强制删除有数据的数据库:

drop database if exists db_testdb cascade;
Hive使用12.png

创建数据库表

建表语法:

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name 
[(col_name data_type [COMMENT col_comment], ...)] 
[COMMENT table_comment] 
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] 
[CLUSTERED BY (col_name, col_name, ...) 
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] 
[ROW FORMAT row_format] 
[STORED AS file_format] 
[LOCATION hdfs_path]

字段解释说明:

  • CREATE TABLE 创建一个指定名字的表,如果相同名字的表已经存在,则抛出异常;用户可以用 IF NOT EXISTS 选项来忽略这个异常。
  • EXTERNAL关键字可以让用户创建一个外部表,在建表的同时指定一个指向实际数据的路径(LOCATION),Hive创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。
  • COMMENT:为表和列添加注释。
  • PARTITIONED BY创建分区表。
  • CLUSTERED BY创建分桶表。
  • SORTED BY外部表数据源,例如后续使用的Hbase数据。
  • ROW FORMAT
    DELIMITED [FIELDS TERMINATED BY char] [COLLECTION ITEMS TERMINATED BY char] [MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char]
    | SERDE serde_name [WITH SERDEPROPERTIES (property_name=property_value, property_name=property_value, ...)]
    用户在建表的时候可以自定义SerDe或者使用自带的SerDe。如果没有指定ROW FORMAT 或者ROW FORMAT DELIMITED,将会使用自带的SerDe。在建表的时候,用户还需要为表指定列,用户在指定表的列的同时也会指定自定义的SerDe,Hive通过SerDe确定表的具体的列的数据。
    SerDe是Serialize/Deserilize的简称,目的是用于序列化和反序列化。
  • STORED AS指定存储文件类型
    常用的存储文件类型:SEQUENCEFILE(二进制序列文件)、TEXTFILE(文本)、RCFILE(列式存储格式文件)
    如果文件数据是纯文本,可以使用STORED AS TEXTFILE。如果数据需要压缩,使用 STORED AS SEQUENCEFILE。
  • LOCATION :指定表在HDFS上的存储位置。
  • LIKE允许用户复制现有的表结构,但是不复制数据。

内部表

默认创建的表都是内部表,这类表有Hive控制生命周期,默认会将表数据存储在配置文件中配置项指定的目录下:

  <property>
    <name>hive.metastore.warehouse.dir</name>
    <value>/root/hive/warehouse</value>
    <description>location of default database for the warehouse</description>
  </property>

当删除内部表时,该表的数据也会被删除。
\color{red}{说明:内部表不适合与其他工具共享数据。}

  1. 创建表
> create table if not exists tableone (id int,name string) row format delimited fields terminated by '\t';
  1. 根据已经存在的表结构创建表
> create table if not exists tabletwo like tableone;
  1. 查询表类型
> desc tableone;
Hive使用13.png

外部表

外部表,Hive并不完全拥有数据。
例如:数据存储在Hbase的表中,此时创建的外部表若删除,则数据仍然存储在Hbase中,不会被删除。
此处使用前文中的Hbase中的表testtableone(前文连接:https://www.jianshu.com/p/cf8730708782),进行操作:

Hive使用14.png

  1. 创建外部表
create external table if not exists htesttableone (row2 string,info map<string,string>) stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' with serdeproperties("hbase.columns.mapping" = ":key,info:") tblproperties("hbase.table.name" = "testtableone");
Hive使用15.png
  1. 查询表类型:
> desc formatted htesttableone;

可以看到表类型为外部表:


Hive使用16.png

表类型转换

  1. 查询tabletwo表类型:
> desc formatted tabletwo;
Hive使用17.png
  1. 内部表转换为外部表
> alter table tabletwo set tblproperties('EXTERNAL'='TRUE');
Hive使用18.png
  1. 外部表转换为内部表
> alter table tabletwo set tblproperties('EXTERNAL'='FALSE');
Hive使用19.png

修改表名

> alter table tabletwo rename to tablethree;

Hive使用20.png


与Hbase数据表关联的Hive外部表,不能进行表类型转换,也不能修改表名,若需要修改表名则需在Hbase中进行修改。

删除表

> drop table htesttableone;

删除外部表,可以看到Hbase中,该数据表仍然存在,不会被删除。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,258评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,335评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,225评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,126评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,140评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,098评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,018评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,857评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,298评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,518评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,678评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,400评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,993评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,638评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,801评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,661评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,558评论 2 352

推荐阅读更多精彩内容

  • 本文是对Hive组件的学习的一个初步总结,包括如下章节的内容: Hive是什么 Hive安装 快速上手 Hive元...
    我是老薛阅读 1,919评论 1 23
  • ORA-00001: 违反唯一约束条件 (.) 错误说明:当在唯一索引所对应的列上键入重复值时,会触发此异常。 O...
    我想起个好名字阅读 5,304评论 0 9
  • Zookeeper用于集群主备切换。 YARN让集群具备更好的扩展性。 Spark没有存储能力。 Spark的Ma...
    Yobhel阅读 7,265评论 0 34
  • hive.ddl.output.format:hive的ddl语句的输出格式,默认是text,纯文本,还有json...
    博弈史密斯阅读 1,945评论 0 6
  • Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分...
    三万_chenbing阅读 12,143评论 0 10