Hive总结

Hive总结

一、Hive架构

1.架构图

2.Hive架构解析

1）用户接口

CLI：cli即shell命令。CLI最常用CLI启动的时候会同时启动一个Hive 副本

Client： Client是Hive的客户端，用户连接HiveServer，并指出Hive Server 所在的节点以及在该节点启动它

WUI：WUI是通过浏览器启动Hive

2）元数据

Hive将元数据存储在数据库中，如mysql、derby。Hive的元数据信息包括，表的名字、表的列、分区机器及其属性、表的属性、表的目录等

3）Driver

解释器、编译器、优化器完成HQL的查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的计划存储在HDFS中，并在MR 中调用执行，Hive的数据存储在HDFS中，大部分的查询计算由MR完成

4）注意事项

Hive会不会转换为MR取决于是否用了聚合函数

二、Hive数据倾斜问题优化

1.现象

当Hive放生数据倾斜的时候，我们在使用HQL运行mr的时候可以发现，map是100%，而reduce卡在99%

2.当Hive发生数据倾斜的时候我应该怎么办呢？

第一种方案，数据倾斜五分就是key的数据量非常不均匀，我们可以开启map聚合的参数（hive.map.aggr=ture），开启之后会把数据现在map端进行聚合，当reduce端聚合的时候就只需要聚合map端聚合完的参数就可以了

第二种是当大表和小表进行JOIN的时候，也可能导致数据倾斜。为了解决这个问题，考虑使用到mapjoin，mapjoin会把小表全部读入内存中，在map阶段直接拿另外一个表的数据和在内存中表的数据进行匹配，由于mapjion是在map端进行了join操作，省去了reduce的运行，所以效率会快很多

第三种是当大表和大表join的时候发生数据倾斜，具体操作室建立一个numbers表，其值只有一列int 行，比如从1到10（具体值可根据倾斜程度确定），然后放大B表10倍，再取模join

三、分区

1.Hive静态分区

就是在不开启动态分区的条件下都是静态分区，使用方式就是HQL

[if !supportLists]2. [endif]Hive动态分区

1）参数设置

· 开启动态分区

启用动态分区功能hive> set hive.exec.dynamic.partition=true;

注：hive2.x该参数默认为true，1.x为false

· 模式设置（严选模式/非严选模式）

设置这个参数为nostrict

hive> set hive.exec.dynimac.partiton.mode=nostrict

默认情况下是strict

2）动态分区的相关参数

hive.exec.max.dynimac.partition.pernode这个参数表示每个mr执行的节点上，能创建的最大分区数量（默认100）

hive.exec.max.dynimac.partition这个参数表示所有mr执行的节点上，能创建的最大分区数量（默认1000）

hive.exec.max.creat.files这个参数代表所有mr job能创建文件的最大数量

3）动态分区加载数据的方法

第一步：创建原数据表

第二部：load data加载数据到原数据表

第三部：使用from into table inset into table select。。。。加载数据

4）静态分区与动态分区的区别

静态分区是手动指定分区的，动态分区是根据数据来判断

5）静态分区结合动态分区使用

动静结合使用的话，静态分区值必须在动态分区值的前面

四、Hive SQL

1.外部表和内部表

区别在于删除的时候只删除元数据，而内部表删除的时候连数据都给删除了

2.Hive DDL

定义：Hive的数据定义语言（LanguageManual DDL）

1）建表语句

· 创建普通的表: create table abc( id int ) row format delimited fields terminated by ',' stored as textFile

· 创建带有分区的表：create table abc( id int ) partitioned by (dt String) row format delimited fields terminated by ','

· 创建外表：create external table abc( id int ) row format delimited fields terminated by ',' location'/home/hive/text.text';

3.Hive DML

定义：Hive数据操作语言（LanguageManual DML）

1）操作语句

HDFS上导入数据：load data inpath 'filePath' into table table_name;

· 从别的表中导入：insert into table table_name1 [patition(dt '.....', value)] select id,name from table_name2

· 多重数据插入：from table_name1 t1，table_name2 t2 insert overwrite table table_name3 [patition(col1=val1,col2=val2)] select t1.id, t2.id, .....................;

五、Hive优化

1.优化一：本地模式

· 开启本地模式hive> set hive.exec.mode.local.auto=true

· 需要注意的是：hive.exec.mode.local.auto.inputbytes.max这个参数默认是128M，这个值表示了当加载文件的值大于这个值的时候，该配置仍会以集群来运行；默认就是集群运行的；当项目上线的时候开启；使用本地模式的话，小数据小表可以避免提交时间的延迟

2.优化二：并行计算

· 开启并行计算hive> set hive.exec.parallel=true

· 相关参数hive.exec.parallel.thread.number(一次sql计算中允许并执行的 job 数量)

· 需要注意的是，并行计算会加大集群的压力

3.优化三：严格模式

· 开启严格模式hive> set hive.mapred.mode = strict

· 主要是防止一群sql查询将集群压力大大增加

· 同时它也有一些限制：1、对于分区表，必须添加where对于分区字段的条件过滤1、orderby语句必须包含limit输出限制 3、限制执行笛卡尔积查询

4.优化四：排序

· order by对于查询结果做全排序，只允许有一个reduce处理

· 需要注意的是：当数据过大的时候谨慎使用，在严选模式下需要结合limit 来使用

· sort by是对单个reduce的数据进行排序

· 只会在每个reducer中对数据进行排序，也就是执行局部排序过程，只能保证每个reducer的输出数据都是有序的（但并非全局有序）

· distribut by是分区排序经常结合sort by一起使用

· cluster by相当于distribut br + sort by

· cluster by默认是倒序排序，不能用asc和desc来指定排序规则；可以通过distribute by clumn sort by clumn asc|desc方式来指定排序方式

5.优化五：JOIN

· join时将小表放在join的左边

· mapjoin：在map端进行join（可以省略shuffle和reduce提高性能）

1）实现方式1：mapJoin标记

sql方式，在sql语句中添加mapjoin标记（mapjoin hint） select /*+mapjoin(smalltable)*/smalltable.key ，bigTable.value from smallTable join bigTable on smallTable.key=bigTable.key

2）实现方式2：开启自动的mapjoin

参数配置：自动对小表进行mapjoin

hive> set hive.auto.convert.join=true

Hive总结

推荐阅读更多精彩内容