Hive复习及扩展

扩展

hive高可用

针对hivesever2
一般情况下，我们在学习的时候直接使用hive –service metastore的方式启动服务端，使用hive的方式直接访问登录客户端，除了这种方式之外，hive提供了hiveserver2的服务端启动方式，提供了beeline和jdbc的支持，并且官网也提出，一般在生产环境中，使用hiveserver2的方式比较多
使用hiveserver2的优点如下：
1、在应用端不需要部署hadoop和hive的客户端
2、hiveserver2不用直接将hdfs和metastore暴露给用户
3、有HA机制，解决应用端的并发和负载问题
4、jdbc的连接方式，可以使用任何语言，方便与应用进行数据交互

行存和列存（针对不同场景选择不同方式）
行存储的特点：查询满足条件的一整行数据的时候，列存储则需要去每个聚集的字段找到对应的每个列的值，行存储只需要找到其中一个值，其余的值都在相邻地方，所以此时行存储查询的速度更快。
列存储的特点：因为每个字段的数据聚集存储，在查询只需要少数几个字段的时候，能大大减少读取的数据量；每个字段的数据类型一定是相同的，列式存储可以针对性的设计更好的设计压缩算法。
TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的；
ORC和PARQUET是基于列式存储的。

复习

Hive

hive是数据仓库，用途：分析，决策类影响
hive搭建

注意，搭建是按照元数据的存储和管理进行搭建的
搭建方式
1）使用hive自带的内存数据库derby-------不用
2）使用单机的MySQL数据库，通过网络来访问元数据-----使用较多
3）使用远程元数据服务的方式，实现hive和关系型数据库的解耦-------使用较多
hive DDL
创建数据库create database databaseName
创建表
1)create table tablename(col dataType..)row format dilimited fields terminated by "collection items terminated by " map key terminated by "|serde(正则)
2)create table tablename as select as select_statement(数据和表结构都有)
3）create table tablename like tablename(只有表结构)
内部表和外部表
1）创建内部表不需要指定数据存储的路径，直接将数据存储在默认的目录中
外部表需要使用external关键字指定，需要使用location指定存储数据的位置
2）删除内部表的的数据和元数据都是由hive来管理的，删除的时候全部删除
外部表的数据由hdfs管理，元数据由hive管理，删除的时候只删除元数据，数据不会删除

DML
1）增
1.load data local inpath "overwrite/into table tablename(partition)
2.from.... insert overwrite/into tablename select..
3.insert into table values
4.insert into local directory dic... select-statement
1.2常用，3和4基本不用
2）使用删除和修改必须要经过事务，需要配置事务
限制（1）rollback，commit不支持
（2）必须是orc文件格式
（3）表必须被分桶
（4）默认事务是不开启的
hive的分区
目的：方便提高检索的效率
展现形式：在hdfs目录上创建多级目录
hive分区的分类
1)静态分区
在静态分区的值是人为指定
2）动态分区
分区列的值是由记录的某一列来决定的
3）添加分区（只适用于动态分区）
alter table tablename add partition(col=val)
4)修复分区
分区是作为元数据存储在MySQL中的，当hdfs路径中包含多级目录，同时存在分区列的时候，可以创建外部表使用，但是分区的元数据没有在MySQL中存储，查不到数据
msck repair table tablename
hive函数
1）hive本身自带了很多内嵌函数
字符函数数值函数日期函数复杂类型函数条件函数
2）函数的分类：udf一进一出
udaf 多进一出
udtf 一进多出
3）自定义函数
1编写java代码继承udf类
2.实现evaluate方法，所有实现的核心逻辑写到此方法中
3.将写好的代码打成jar包
4.将jar包上传到本地Linux或者hdfs
5.如果是本地Linux，在hive客户端执行add jar path
如果是hdfs
CREATE TEMPORARY FUNCTION add_example（jar包名name） AS 'hive.udf.Add'（package+class）;
6.如果是hdfs，直接创建函数
CREATE TEMPORARY FUNCTION func_name AS 'package+class' using 'jar在hdfs上的路径';
——————————————————————————————————

hive参数

hiveconf：类似于在hive-site.xml中配置
System：系统变量
env：环境变量
hivevar:自定义变量
设置方式
在hive-site.xml中设置：全局有效
在hive --hiveconf key=value 当前会话有效
进入命令行之后，set key=value 当前会话有效
在当前用户的家目录下设置.hiverc的文件，每次进入命令行的时候，都会读取当前文件
在当前用户的家目录下有一个.hivehistory.记录所有的历史命令

动态分区

设置参数：允许动态分区，默认值是true，动态分区的模式：nostrict或strict
使用动态分区的时候需要使用insert statement语句

hive的分桶、

应用场景：1.数据抽样
2.事务支持（delete或update开启事务）
设置允许分桶的参数
注意：分桶表在执行的时候，reduce task 的个数跟桶的个数保持一致
tablesample（bucket x out of y）
x：从哪个桶开始抽取数据
y：桶的个数的倍数或因子，一般使用因子

hive的运行方式

1.cli
1提交sql语句2.跟hdfs交互3跟本地系统交互
2.脚本

hive -e "sql"
hive -e "sql" >aa.txt
hive -S -e "sql"
hive -f file
hive -i file
在cli中执行source file

3.web ui
hwi（一般不用）
hue
4.jdbc

hive的视图

创建
create view view_name as select statement
注意：1只能做查询，不能insert或者load数据
2.hive支持迭代视图
3.hive不支持物化视图
4.如果使用orderby，视图的优先级高

hive的索引

create index index_name on tablename(col) as '索引器' in table tablename(存储索引数据)
注意：hive不会自动创建索引
创建索引时执行alter index index_name on tablename[partition partition_spec] rebuild;
每次新增数据后都需重新创建索引

hive的权限

1.基于元数据的权限管理
2.基于sql标准的权限管理
3.基于第三方的权限管理
4.默认的权限管理方式
基于sql标准权限管理（hiveserver2）
1.用户：使用者
2.角色：一组权限的集合（public和admin）
角色的控制
create role rolename（管理员才能创建）
show roles
show current roles
drop role rolename
权限的分配和回收
grant和revoke

hive优化

核心思想：将hive的优化当作是MR去优化
优化策略：1可以查看sql的执行计划explain
2.抓取策略
3本地模式
4并行模式
5严格模式（strict nonstrict）
使用严格模式后会禁止一些查询
6map端聚合
7.join：1当多表连接的时候，尽可能多的使用相同的连接键
2将小表尽量放在左边
3map端join（将小表的数据加载到内存中）：1手动（SELECT /*+ MAPJOIN(smallTable) */ smallTable.key, bigTable.value
FROM smallTable JOIN bigTable ON smallTable.key = bigTable.key;）2自动（默认将左边的表当作小表。根据文件大小来判断小表还是大表）
8.排序（1）orederby（会将所有的数据加载到一个reduce中）
（2）sort by 保证每个reduce有序
（3）distributed by保证分区有序
（4）cluster by 等同于sort by+distributed by但是不能指定排序策略
注意：推荐使用sort by+distributed by结合使用
9map和reduce个数的设置
map task 的个数是由切片决定的
reduce是设置的1.数据量2.数据字段可能产生的key的个数
10.重用jvm：适用场景：1小文件过多2tsak过多
预先申请一部分task资源，当任务开始执行的时候，占用资源，不用去频繁申请销毁资源
当整个job执行完成之后，才会释放所有资源，所有task的资源个数需要进行测试

最后编辑于：2019.12.30 20:54:22

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 220,492评论 6赞 513
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 94,048评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 166,927评论 0赞 358
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,293评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,309评论 6赞 397
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 52,024评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,638评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,546评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 46,073评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,188评论 3赞 340
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,321评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,998评论 5赞 347
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,678评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,186评论 0赞 23
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,303评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,663评论 3赞 375
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,330评论 2赞 358