Hive常用命令

1、给用户赋予权限

# 角色创建与删除相关命令
create role rolename;
drop role name;
# 将某个角色赋予某个用户
grant role name to user username;
# 使某个用户拥有databasename数据库的select权限
grant select on database databasename to user username;

2、数据库新建/删除操作

  • 创建数据库
create database hello_world;
create database if not exists database_name
  • 查看所有的数据库
show databases;
  • 进入某个数据库
use  hello_world;
  • 删除数据库
//删除空的数据库
drop database if exists database_name; 
//先删除数据库中的表再删除数据库
drop database if exists database_name cascade; 

3、hive表操作

  • 查看所有表
show tables;
  • 显示表结构
desc hello_world_inner;
  • 显示表的分区
show partitions hello_world_parti;
  • 显示创建表的语句
show create table table_name;
  • 删除表
drop table t1;  
drop table if exists t1;
  • 清空表(保留表结构)
    内部表

    truncate table 表名; 
    

    外部表
    由于外部表不能直接删除,所以用shell命令直接删除hdfs上的数据

    #!/bin/bash
    hdfs dfs -rm -r /user/hive/temp_table
    
  • 重命名表名称

alter table table_name rename to new_table_name;

4、建表语句

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name 
[(col_name data_type [COMMENT col_comment], ...)] 
[COMMENT table_comment] 
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] 
[CLUSTERED BY (col_name, col_name, ...) 
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] 
[ROW FORMAT row_format] 
[STORED AS file_format] 
[LOCATION hdfs_path]
  • 创建内部表
create table hello_world_inner
(
    id bigint, 
    account string, 
    name string,
    age int
)
row format delimited fields terminated by ',';
  • 创建内部表
create EXTERNAL  table hello_world_inner
(
    id bigint, 
    account string, 
    name string,
    age int
)
row format delimited fields terminated by ',';
  • 创建分区表
create table hello_world_parti
(
    id bigint,
    name string
)
partitioned by (dt string, country string);

参数说明:
EXTERNAL:创建外部表,在建表的同时可以指定源数据的路径(LOCATION),创建内部表时,会将数据移动到数据仓库指向的路径,若创建外部表不会有任何改变。在删除表时,内部表的元数据和源数据都会被删除,外部表不会删除源数据。

COMMENT:为表和列增加注释

PARTITIONED BY:创建分区表,
——PARTITIONED BY(dt STRING, country STRING)
CLUSTERED BY:创建分桶表
SORTED BY:创建排序后分桶表(不常用)
——CLUSTERED BY(userid) SORTED BY(viewTime) INTO 32 BUCKETS

ROW FORMAT DELIMITED:是用来设置创建的表在加载数据的时候,支持的列分隔符。Hive默认的分隔符是\001,属于不可见字符,这个字符在vi里是^A
—— ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001';

STORED AS:指定存储文件类型 sequencefile (二进制序列文件)、textfile(文本)、rcfile(列式存储格式文件)、ORC
如果文件数据是纯文本,可以使用 STORED AS TEXTFILE。
如果数据需要压缩,使用 STORED AS SEQUENCEFILE。

LOCATION:指定表在 hdfs 上的存储位置

5、表结构修改

  • 增加字段
alter table table_name add columns (newcol1 int comment ‘新增’);
  • 修改字段名称及类型
alter table table_name change col_name new_col_name new_type;
  • 删除字段(COLUMNS中只放保留的字段)
alter table table_name replace columns (col1 int,col2 string,col3 string);
  • 删除分区
alter table table_name drop if exists partitions (d=‘2016-07-01');

注意:若是外部表,则还需要删除文件(hadoop fs -rm -r -f hdfspath)

  • 修改字段分隔符 和 修改序列化分隔符
//修改字段分隔符
alter table aaa set serdeproperties('field.delim'='\t');
//修改序列化分隔符
alter table aaa set serdeproperties('serialization.format'='1');
//aaa为表名

6、字段类型

7、加载数据到hive表

  • 1、从HDFS加载
//使用data_base_zhangkai数据库
use data_base_zhangkai;
LOAD DATA INPATH '/user/zhangkai/aaa' OVERWRITE INTO TABLE ods_aaa; 

注意:INPATH后面的文件路径不能和hive表路径在hdfs上一致,最好是两个不同的文件路径,在加载过程中,源路径下的文件会被移动到hive表所在路径下,如果一致,会找不到文件错误;

  • 2、从本地加载
use data_base_zhangkai;
LOAD LOCLDATA INPATH '/user/zhangkai/aaa' OVERWRITE INTO TABLE ods_aaa; 

8、存储格式

Hive支持内置和自定义开发的文件格式。以下是Hive内置的一些格式:

默认是文本格式.
textfile 存储空间消耗比较大,并且压缩的text 无法分割和合并查询的效率最低,可以直接存储,加载数据的速度最高.
sequencefile 存储空间消耗最大,压缩的文件可以分割和合并查询效率高,需要通过text文件转化来加载.
rcfile 存储空间最小,查询的效率最高 ,需要通过text文件转化来加载,加载的速度最低.

相比传统的行式存储引擎,列式存储引擎具有更高的压缩比,更少的IO操作而备受青睐(注:列式存储不是万能高效的,很多场景下行式存储仍更加高效),尤其是在数据列(column)数很多,但每次操作仅针对若干列的情景,列式存储引擎的性价比更高。

  • 1、TEXTFILE
    默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理。源文件可以直接通过hadoop fs -cat 查看.
    存储方式:行存储
    磁盘开销大,数据解析开销大.
    压缩的text文件 hive无法进行合并和拆分

  • 2、SEQUENCEFILE
    一种Hadoop API提供的二进制文件,使用方便、可分割、可压缩等特点。
    SEQUENCEFILE将数据以< key,value>的形式序列化到文件中。序列化和反序列化使用Hadoop 的标准的Writable 接口实现。key为空,用value 存放实际的值, 这样可以避免map 阶段的排序过程。
    三种压缩选择:NONE, RECORD, BLOCK。 Record压缩率低,一般建议使用BLOCK压缩。文件和Hadoop api中的mapfile是相互兼容的。

        //使用时设置参数: 
    set hive.exec.compress.output=true; 
    set io.seqfile.compression.type=BLOCK;      – NONE/RECORD/BLOCK 
    create table test2(str STRING) STORED AS SEQUENCEFILE; 
    
  • 3、RCFILE
    一种行列存储相结合的存储方式。首先,其将数据按行分块,保证同一个record在一个块上,避免读一个记录需要读取多个block。其次,块数据列式存储,有利于数据压缩和快速的列存取。
    理论上具有高查询效率(但hive官方说效果不明显,只有存储上能省10%的空间,所以不好用,可以不用)。
    RCFile结合行存储查询的快速和列存储节省空间的特点
    1)同一行的数据位于同一节点,因此元组重构的开销很低;
    2)块内列存储,可以进行列维度的数据压缩,跳过不必要的列读取。
    查询过程中,在IO上跳过不关心的列。实际过程是,在map阶段从远端拷贝仍然拷贝整个数据块到本地目录,也并不是真正直接跳过列,而是通过扫描每一个row group的头部定义来实现的。
    但是在整个HDFS Block 级别的头部并没有定义每个列从哪个row group起始到哪个row group结束。所以在读取所有列的情况下,RCFile的性能反而没有SequenceFile高。

  • 4、ORC
    hive给出的新格式,属于RCFILE的升级版。
    ORC(OptimizedRC File)存储源自于RC(RecordColumnar File)这种存储格式,RC是一种列式存储引擎,对schema演化(修改schema需要重新生成数据)支持较差,而ORC是对RC改进,但它仍对schema演化支持较差,主要是在压缩编码,查询性能方面做了优化。RC/ORC最初是在Hive中得到使用,最后发展势头不错,独立成一个单独的项目。Hive 1.x版本对事务和update操作的支持,便是基于ORC实现的(其他存储格式暂不支持)。ORC发展到今天,已经具备一些非常高级的feature,比如支持update操作,支持ACID,支持struct,array复杂类型。你可以使用复杂类型构建一个类似于parquet的嵌套式数据架构,但当层数非常多时,写起来非常麻烦和复杂,而parquet提供的schema表达方式更容易表示出多级嵌套的数据类型。
    ORC是RCfile的升级版,性能有大幅度提升,而且数据可以压缩存储,压缩比和Lzo压缩差不多,比text文件压缩比可以达到70%的空间。而且读性能非常高,可以实现高效查询。

9、配置优化

# 开启任务并行执行
set hive.exec.parallel=true
# 设置运行内存
set mapreduce.map.memory.mb=1024;
set mapreduce.reduce.memory.mb=1024;
# 指定队列
set mapreduce.job.queuename=jppkg_high;
# 动态分区,为了防止一个reduce处理写入一个分区导致速度严重降低,下面需设置为false
# 默认为true
set hive.optimize.sort.dynamic.partition=false;
# 设置变量
set hivevar:factor_timedecay=-0.3;
set hivevar:pre_month=${zdt.addDay(-30).format("yyyy-MM-dd")};
set hivevar:pre_date=${zdt.addDay(-1).format("yyyy-MM-dd")};
set hivevar:cur_date=${zdt.format("yyyy-MM-dd")};
# 添加第三方jar包, 添加临时函数
add jar ***.jar;
# 压缩输出,ORC默认自带压缩,不需要额外指定,如果使用非ORCFile,则设置如下
hive.exec.compress.output=true
# 如果一个大文件可以拆分,为防止一个Map读取过大的数据,拖慢整体流程,需设置
hive.hadoop.suports.splittable.combineinputformat
# 避免因数据倾斜造成的计算效率,默认false
hive.groupby.skewindata
# 避免因join引起的数据倾斜
hive.optimize.skewjoin
# map中会做部分聚集操作,效率高,但需要更多内存
hive.map.aggr   -- 默认打开
hive.groupby.mapaggr.checkinterval  -- 在Map端进行聚合操作的条目数目
# 当多个group by语句有相同的分组列,则会优化为一个MR任务。默认关闭。
hive.multigroupby.singlemr
# 自动使用索引,默认不开启,需配合row group index,可以提高计算速度
hive.optimize.index.filter

10、常用函数

  • if 函数,如果满足条件,则返回A, 否则返回B
    if (boolean condition, T A, T B)

  • case 条件判断函数, 当a为b时则返回c;当a为d时,返回e;否则返回f
    case a when b then c when d then e else f end

  • Json操作
    将字符串类型的数据读取为json类型,并得到其中的元素key的值
    第一个参数填写json对象变量,第二个参数使用表示json变量标识,然后用.读取对象或数组; get_json_object(string s, '.key')

  • url解析 parse_url()
    parse_url('http://facebook.com/path/p1.php?query=1','HOST')返回'facebook.com'
    parse_url('http://facebook.com/path/p1.php?query=1','PATH')返回'/path/p1.php'
    parse_url('http://facebook.com/path/p1.php?query=1','QUERY')返回'query=1',

  • explode :将hive一行中复杂的array或者map结构拆分成多行
    explode(colname)

  • lateral view :将一行数据adid_list拆分为多行adid后,使用lateral view使之成为一个虚表adTable,使得每行的数据adid与之前的pageid一一对应, 因此最后pageAds表结构已发生改变,增加了一列adid
    select pageid, adid from pageAds
    lateral view explode(adid_list) adTable as adid

  • 字符串函数
    • 字符串分割str,按照pat,返回分割后的字符串数组
      split(string str, string pat)
    • 将字符串转为map, item_pat指定item之间的间隔符号,dict_pat指定键与值之间的间隔
      str_to_map(string A, string item_pat, string dict_pat)
    • 反转字符串
      reverse()
    • 字符串截取
      substring(string A, int start, int len)
    • 字符串连接
      concat(string A, string B, string C, ...)
    • 自定义分隔符sep的字符串连接
      concat_ws(string sep, string A, string B, string C, ...)
    • 返回字符串长度
      length()
    • 去除两边空格
      trim()
    • 大小写转换
      lower(), upper()
    • 返回列表中第一个非空元素,如果所有值都为空,则返回null
      coalesce(v1, v2, v3, ...)
    • 返回第二个参数在待查找字符串中的位置(找不到返回0)
      instr(string str, string search_str)
    • 将字符串A中的符合java正则表达式pat的部分替换为C;
      regexp_replace(string A, string pat, string C)
    • 将字符串subject按照pattern正则表达式的规则进行拆分,返回index指定的字符,0:显示与之匹配的整个字符串, 1:显示第一个括号里的, 2:显示第二个括号里的
      regexp_extract(string subject, string pattern, int index)
  • 类型转换
    cast(expr as type)
  • 提取出map的keys, 返回key的array
    map_keys(map m)

  • 日期函数

    • 日期比较函数,返回相差天数,
      datediff('${cur_date},d)
      datediff(date1, date2)
    • 返回当前时间
      from_unixtime(unix_timestamp(), 'yyyy-MM-dd HH:mm:ss')
  • 行转列
    collect_set 去重
    collect_list 不去重

    //sub 为数组
    SELECT p.member_id, collect_set(p.sub1) sub from temp p group by p.member_id;
    // 把数组以逗号拼接为字符串
    SELECT p.member_id, concat_ws(',',collect_set(p.sub1)) sub from temp p group by p.member_id;
    
  • 列转行
    //将表中path列(字符串)的数据以'/'切割为
    select 
         member_id,parent_id
      from 
          recommend_path 
      LATERAL VIEW explode(split(path,'/')) idtable as parent_id 
      where parent_id != "" and parent_id is not null and parent_id != member_id 
    

使用

  • 从身份证中获取年龄

    //id_no为身份证号
    select (from_unixtime(unix_timestamp(),'yyyy')-substr(id_no,7,4))
    age,id_no from aaa_bank_info  limit 100
    
  • 日期判断
    使用to_date(),如:to_date(orderdate)=‘2016-07-18’

  • 字符串比较
    HQL中字符串的比较比较严格,区分大小写及空格,因此在比较时建议upper(trim(a))=upper(trim(b))

  • update操作
    HQL不支持update
    实际采用union all + left join (is null)变相实现update
    思路:
    1.取出增量数据;
    2.使用昨日分区的全量数据通过主键左连接增量数据,并且只取增量表中主键为空的数据(即,取未发生变化的全量数据);
    3.合并1、2的数据覆盖至最新的分区,即实现了update;

  • delete实现
    采用not exists/left join(is null)的方法变相实现。
    1.取出已删除的主键数据(表B);
    2.使用上一个分区的全量数据(表A)通过主键左连接A,并且只取A中主键为空的数据,然后直接insert overwrite至新的分区;

  • UNION实现
    HQL中没有UNION,可使用distinct+ union all 实现 UNION;

  • with

  • join
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,277评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,689评论 3 393
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,624评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,356评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,402评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,292评论 1 301
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,135评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,992评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,429评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,636评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,785评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,492评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,092评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,723评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,858评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,891评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,713评论 2 354

推荐阅读更多精彩内容