冰解的破-hive

hive

Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

Hive 没有专门的数据格式。 Hive 可以很好的工作在 Thrift 之上,控制分隔符,也允许用户指定数据格式。

学习整理:

  • hive开启分区的配置方法?

个人认为这里所指定的开启分区应该是指开启动态分区,so具体配置如下:

hive.exec.dynamic.partition=true //是否开启分区功能,默认为false;
hive.exec.dynamic.partition.mode=nonstrict //默认为strict,表示至少要有一分区为静态;nonstrict表示可以全为动态分区;
hive.exec.max.dynamic.partitions.pernode=100 //每个执行的MR节点上,最大可以创建多少动态分区,默认100;
hive.exec.max.dynamic.partitions=1000 //所有执行的MR节点上,最大一共可以创建多少动态分区,默认1000;
hive.exec.max.created.files=10000 //整个MR Job中一共可以创建多少HDFS文件,默认100000;
hive.error.on.empty.partition=true //当有空分区生成时,是否报异常,默认false。
  • hive授权访问某表命令?
GRANT
    priv_type [, priv_type ] ...
    ON table_or_view_name
    TO principal_specification [, principal_specification] ...
    [WITH GRANT OPTION];

principal_specification
  : USER user
  | ROLE role
  
priv_type
  : INSERT | SELECT | UPDATE | DELETE | ALL

具体可见:下面的hive权限管理。

  • hive支持几种文件存储格式?

hive支持行存储格式包括:textfile(默认,行存储),squencefile(行存储),rcfile(行列存储),parquet(列存储)。
textfile:默认存储格式。
squencefile:hadoop api提供的一种二进制文件支持,可分割,可压缩,支持 none,record,block三种压缩选项,其中block压缩率最高。
rcfile:行列存储相结合的一种方式,按行分组后再按列存取,按行查找快,按列可压缩并减少io开销。
orcfile:rcfile的改良版。
parquet:一种优化过的列存储,压缩性能比较好,同时表扫描和反序列化都比较快。
这儿补充一点有关压缩存储的一些知识:
首先hive的压缩要分为中间结果的压缩和最终结果的压缩,中间结果压缩是指MapReduce任务中,map阶段结束后的中间结果可以进行压缩以节省带宽,但因为需要在下一步reduce阶段使用,所以对解压速度有一定要求,常见的中间结果压缩技术主要使用LZO和Snappy。而对于最终结果的压缩,我们主要考虑存储空间的需要,技术使用GZIP和BZIP2。
还有一点就是HDFS存储文件的时候会按64M进行分片,每一个分片文件会对应一个mapper来处理以实现并行,但压缩算法并非都支持数据分割,所以我们应该尽量选用可分割的压缩算法(BZip2、LZO、Snappy支持分割,Gzip不支持分割)。

  • 静态分区(sp)和动态分区(dp)?

其实hive所谓分区就是对应着文件目录中的文件夹,静态分区和动态分区的区别主要是是否需要我们手动指定,静态分区一般在编译的时候就确定了,而动态分区则需要hql在执行的过程中根据select出来的值来确定。
总的说静态分区用于比较固定的内容,如果数据存储需要产生很多子文件夹的话建议用开启动态分区。
注意:

  1. 动态分区和静态分区可混合使用,但静态分区需要在前。
  2. 插入分区表语句中,分区字段对应select语句中最后的几个字段。
  • hive权限管理

在讨论hive权限之前,先说说hive的使用场景。

  1. hive作为表存储层,提供表抽象和metastore的存储,用户直接访问hdfs和metastore,我们熟悉的有Apache Pig,MapReduce,Cloudera Impala, Facebook Presto, Spark SQL (这些都使用HCatalog api)。
  2. hive作为sql查询引擎,这也是hive最常用的,分为两个子方向:
    a. hive command line(如:Hive CLI ),这些用户拥有对于hdfs和hive metastore的直接访问权。
    b.ODBC/JDBC 和其他的 HiveServer2 API(如:Beeline CLI),它们没有直接访问hdfs和metastore的能力,只能通过HiveServer2来间接访问。

为此,hive提供了不同的授权模型来满足相应的需求 。

  1. Storage Based Authorization in the Metastore Server:适用于1和2a, 数据的访问并不取决于hive的设置,而是交由HDFS的权限管理(即目录、文件的rw来控制用户读写)。若想要访问诸如databases、tables、partitions这类metadata object,你需要有文件系统中对应目录的访问权限。当然你也可以通过以终端用户身份运行hiveserver2(场景2b)来保护访问(hive.server2.enable.doAs=true)。
  2. SQL Standards Based Authorization in HiveServer2:相较于Storage Based Authorization 对于 databases、tables、partitions级别的访问限制,提供了更为精细的对于column和row级别的访问控制,它基于HiveServer2实现SQL标准的授权(grant、revoke)。注意:它不适用与2a的情景,因为hive cli可以直接访问hdfs,bypass掉sql授权限制,并且可以通过set 来更换授权方式。
  3. Authorization using Apache Ranger & Sentry:Apache Ranger和Apache Sentry都使用hive提供的插件,这些项目下的类库保证了授权政策的实现,用户可以使用许多更高级的特性(如:用户web接口、查看审计信息等等)。
  4. Old default Hive Authorization (Legacy Mode):在早期版本中使用,同样支持grant、revoke,不过存在许多安全隐患(如:任何人可以给自己grant权利),可以通过自定义实现超级管理员来改善。当初设计目的是为了防止误操作,不能满足系统对于规范授权的要求。

再展开讲讲Storage Based Authorization和SQL Standards Based Authorization的使用。

  1. Storage Based Authorization:
    hive-site.xml配置如下参数:
<property>
  <name>hive.security.authorization.enabled</name>
  <value>true</value>
  <description>开启hive客户端授权</description>
</property>
<property>
  <name>hive.security.authorization.manager</name>
  <value>org.apache.hadoop.hive.ql.security.authorization.StorageBasedAuthorizationProvider</value>
<description>告诉使用哪一个metastore-side authorization provider</description>
</property>
<property>
  <name>hive.metastore.pre.event.listeners</name>
  <value>org.apache.hadoop.hive.ql.security.authorization.AuthorizationPreEventListener</value>
  <description>开启metastore-side 安全</description>
</property>
<property>
  <name>hive.security.metastore.authenticator.manager</name>
  <value>org.apache.hadoop.hive.ql.security.HadoopDefaultMetastoreAuthenticator</value>
</property>
<property>
  <name>hive.security.metastore.authorization.auth.reads</name>
  <value>true</value>
  <description>Hive metastore authorization 将对读操作有效</description>
</property>

重启HiveMetaStore,根据object和文件系统目录的对应关系设置好相应访问权限便可以控制访问了。

  1. SQL Standards Based Authorization:
    先介绍下hive中关于用户、组、角色的概念

用户 :即操作系统中的用户,或者在hiveserver2中定义的用户。
组 :即操作系统中的组。(组是相对默认授权方式来说的)
角色 :是一组权限的集合,参考关系型数据库。

一个user可以属于多个group,任意user或group可以拥有多个权限和角色,一个role可以为另一个role的成员(但不能形成环)

hive内置public、admin角色。public,所有用户都拥有的角色;admin为超级管理员,且使用前需要自己为自己grant admin角色。

角色管理命令

 //创建角色
CREATE ROLE role_name;
//删除角色
DROP ROLE role_name; 
//显示当前用户下角色
SHOW CURRENT ROLES; 
//设置角色,ALL回到默认,NONE无任何角色
SET ROLE (role_name|ALL|NONE); 
//显示所有角色,需admin身份
SHOW ROLES;
//为用户或角色指定角色. [WITH ADMIN OPTION] 表示可将grant得到的权限传递
GRANT role_name [, role_name] ... 
TO principal_specification [, principal_specification] ... 
[ WITH ADMIN OPTION ];  

principal_specification
  : USER user
  | ROLE role
//撤回角色
REVOKE [ADMIN OPTION FOR] role_name [, role_name] ...
FROM principal_specification [, principal_specification] ... ; 

principal_specification
  : USER user
  | ROLE role
//显示pricipal_name名字的USER或ROLE,所赋予的角色
SHOW ROLE GRANT (USER|ROLE) principal_name;
//显示role_name名字角色下的user或role
SHOW PRINCIPALS role_name; 

管理对象特权

//赋权
GRANT
    priv_type [, priv_type ] ...
    ON table_or_view_name
    TO principal_specification [, principal_specification] ...
    [WITH GRANT OPTION]; 

//撤销
REVOKE [GRANT OPTION FOR]
    priv_type [, priv_type ] ...
    ON table_or_view_name
    FROM principal_specification [, principal_specification] ... ;
 
principal_specification
  : USER user
  | ROLE role
  
priv_type
  : INSERT | SELECT | UPDATE | DELETE | ALL

//显示权限
SHOW GRANT [principal_specification] ON (ALL | [TABLE] table_or_view_name);
  
principal_specification
  : USER user
  | ROLE role

最后来看看该怎么配置。
hive-site.xml

<property>
  <name>hive.security.authorization.enabled</name>
  <value>true</value>
  <description>开启授权</description>
</property>
<property>
  <name>hive.server2.enable.doAs</name>
  <value> false </value>
  <description>使用hiveServer2本地身份</description>
</property>
<property>
  <name>hive.users.in.admin.role</name>
  <value>admin,hive</value>
  <description>admin身份名单</description>
</property>
<property>
  <name>hive.security.metastore.authorization.manager</name>
  <value>org.apache.hadoop.hive.ql.security.authorization.StorageBasedAuthorizationProvider,org.apache.hadoop.hive.ql.security.authorization.MetaStoreAuthzAPIAuthorizerEmbedOnly</value>
  <description>设置metastore只接受本地化访问和需要storage based权限</description>
</property>
<property>
  <name>hive.security.authorization.manager</name>
  <value>org.apache.hadoop.hive.ql.security.authorization.plugin.sqlstd.SQLStdConfOnlyAuthorizerFactory</value>
  <description>使用hive-cli创建表和视图的人拥有默认权限</description>
</property>

hiveserver2-site.xml

hive.security.authorization.manager=org.apache.hadoop.hive.ql.security.authorization.plugin.sqlstd.SQLStdHiveAuthorizerFactory
hive.security.authorization.enabled=true
hive.security.authenticator.manager=org.apache.hadoop.hive.ql.security.SessionStateUserAuthenticator
hive.metastore.uris=' '

总结一下,storage based 或 sql standard 都是为了满足不同的应用需求,且两者可同时配置。至于很多跟高级的引用可以通过自定义不同的组件来实现,具体可看下面的链接。

注意:1.user name 对大小写敏感而role name 对大小写不敏感,因为user name可能由外部系统提供,不受hive控制,所以大小写敏感;

详情参见:
官方文档:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Authorization#space-menu-link-content
HADOOP docker(七):hive权限管理:https://www.cnblogs.com/skyrim/p/7455270.html

TO BE CONTINUED ......

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,014评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,796评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,484评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,830评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,946评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,114评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,182评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,927评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,369评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,678评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,832评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,533评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,166评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,885评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,128评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,659评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,738评论 2 351

推荐阅读更多精彩内容