Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。
Hive 没有专门的数据格式。 Hive 可以很好的工作在 Thrift 之上,控制分隔符,也允许用户指定数据格式。
学习整理:
-
hive开启分区的配置方法?
个人认为这里所指定的开启分区应该是指开启动态分区,so具体配置如下:
hive.exec.dynamic.partition=true //是否开启分区功能,默认为false;
hive.exec.dynamic.partition.mode=nonstrict //默认为strict,表示至少要有一分区为静态;nonstrict表示可以全为动态分区;
hive.exec.max.dynamic.partitions.pernode=100 //每个执行的MR节点上,最大可以创建多少动态分区,默认100;
hive.exec.max.dynamic.partitions=1000 //所有执行的MR节点上,最大一共可以创建多少动态分区,默认1000;
hive.exec.max.created.files=10000 //整个MR Job中一共可以创建多少HDFS文件,默认100000;
hive.error.on.empty.partition=true //当有空分区生成时,是否报异常,默认false。
-
hive授权访问某表命令?
GRANT
priv_type [, priv_type ] ...
ON table_or_view_name
TO principal_specification [, principal_specification] ...
[WITH GRANT OPTION];
principal_specification
: USER user
| ROLE role
priv_type
: INSERT | SELECT | UPDATE | DELETE | ALL
具体可见:下面的hive权限管理。
-
hive支持几种文件存储格式?
hive支持行存储格式包括:textfile(默认,行存储),squencefile(行存储),rcfile(行列存储),parquet(列存储)。
textfile:默认存储格式。
squencefile:hadoop api提供的一种二进制文件支持,可分割,可压缩,支持 none,record,block三种压缩选项,其中block压缩率最高。
rcfile:行列存储相结合的一种方式,按行分组后再按列存取,按行查找快,按列可压缩并减少io开销。
orcfile:rcfile的改良版。
parquet:一种优化过的列存储,压缩性能比较好,同时表扫描和反序列化都比较快。
这儿补充一点有关压缩存储的一些知识:
首先hive的压缩要分为中间结果的压缩和最终结果的压缩,中间结果压缩是指MapReduce任务中,map阶段结束后的中间结果可以进行压缩以节省带宽,但因为需要在下一步reduce阶段使用,所以对解压速度有一定要求,常见的中间结果压缩技术主要使用LZO和Snappy。而对于最终结果的压缩,我们主要考虑存储空间的需要,技术使用GZIP和BZIP2。
还有一点就是HDFS存储文件的时候会按64M进行分片,每一个分片文件会对应一个mapper来处理以实现并行,但压缩算法并非都支持数据分割,所以我们应该尽量选用可分割的压缩算法(BZip2、LZO、Snappy支持分割,Gzip不支持分割)。
-
静态分区(sp)和动态分区(dp)?
其实hive所谓分区就是对应着文件目录中的文件夹,静态分区和动态分区的区别主要是是否需要我们手动指定,静态分区一般在编译的时候就确定了,而动态分区则需要hql在执行的过程中根据select出来的值来确定。
总的说静态分区用于比较固定的内容,如果数据存储需要产生很多子文件夹的话建议用开启动态分区。
注意:
- 动态分区和静态分区可混合使用,但静态分区需要在前。
- 插入分区表语句中,分区字段对应select语句中最后的几个字段。
-
hive权限管理
在讨论hive权限之前,先说说hive的使用场景。
- hive作为表存储层,提供表抽象和metastore的存储,用户直接访问hdfs和metastore,我们熟悉的有Apache Pig,MapReduce,Cloudera Impala, Facebook Presto, Spark SQL (这些都使用HCatalog api)。
- hive作为sql查询引擎,这也是hive最常用的,分为两个子方向:
a. hive command line(如:Hive CLI ),这些用户拥有对于hdfs和hive metastore的直接访问权。
b.ODBC/JDBC 和其他的 HiveServer2 API(如:Beeline CLI),它们没有直接访问hdfs和metastore的能力,只能通过HiveServer2来间接访问。
为此,hive提供了不同的授权模型来满足相应的需求 。
- Storage Based Authorization in the Metastore Server:适用于1和2a, 数据的访问并不取决于hive的设置,而是交由HDFS的权限管理(即目录、文件的rw来控制用户读写)。若想要访问诸如databases、tables、partitions这类metadata object,你需要有文件系统中对应目录的访问权限。当然你也可以通过以终端用户身份运行hiveserver2(场景2b)来保护访问(hive.server2.enable.doAs=true)。
- SQL Standards Based Authorization in HiveServer2:相较于Storage Based Authorization 对于 databases、tables、partitions级别的访问限制,提供了更为精细的对于column和row级别的访问控制,它基于HiveServer2实现SQL标准的授权(grant、revoke)。注意:它不适用与2a的情景,因为hive cli可以直接访问hdfs,bypass掉sql授权限制,并且可以通过set 来更换授权方式。
- Authorization using Apache Ranger & Sentry:Apache Ranger和Apache Sentry都使用hive提供的插件,这些项目下的类库保证了授权政策的实现,用户可以使用许多更高级的特性(如:用户web接口、查看审计信息等等)。
- Old default Hive Authorization (Legacy Mode):在早期版本中使用,同样支持grant、revoke,不过存在许多安全隐患(如:任何人可以给自己grant权利),可以通过自定义实现超级管理员来改善。当初设计目的是为了防止误操作,不能满足系统对于规范授权的要求。
再展开讲讲Storage Based Authorization和SQL Standards Based Authorization的使用。
- Storage Based Authorization:
hive-site.xml配置如下参数:
<property>
<name>hive.security.authorization.enabled</name>
<value>true</value>
<description>开启hive客户端授权</description>
</property>
<property>
<name>hive.security.authorization.manager</name>
<value>org.apache.hadoop.hive.ql.security.authorization.StorageBasedAuthorizationProvider</value>
<description>告诉使用哪一个metastore-side authorization provider</description>
</property>
<property>
<name>hive.metastore.pre.event.listeners</name>
<value>org.apache.hadoop.hive.ql.security.authorization.AuthorizationPreEventListener</value>
<description>开启metastore-side 安全</description>
</property>
<property>
<name>hive.security.metastore.authenticator.manager</name>
<value>org.apache.hadoop.hive.ql.security.HadoopDefaultMetastoreAuthenticator</value>
</property>
<property>
<name>hive.security.metastore.authorization.auth.reads</name>
<value>true</value>
<description>Hive metastore authorization 将对读操作有效</description>
</property>
重启HiveMetaStore,根据object和文件系统目录的对应关系设置好相应访问权限便可以控制访问了。
- SQL Standards Based Authorization:
先介绍下hive中关于用户、组、角色的概念
用户 :即操作系统中的用户,或者在hiveserver2中定义的用户。
组 :即操作系统中的组。(组是相对默认授权方式来说的)
角色 :是一组权限的集合,参考关系型数据库。一个user可以属于多个group,任意user或group可以拥有多个权限和角色,一个role可以为另一个role的成员(但不能形成环)
hive内置public、admin角色。public,所有用户都拥有的角色;admin为超级管理员,且使用前需要自己为自己grant admin角色。
角色管理命令
//创建角色
CREATE ROLE role_name;
//删除角色
DROP ROLE role_name;
//显示当前用户下角色
SHOW CURRENT ROLES;
//设置角色,ALL回到默认,NONE无任何角色
SET ROLE (role_name|ALL|NONE);
//显示所有角色,需admin身份
SHOW ROLES;
//为用户或角色指定角色. [WITH ADMIN OPTION] 表示可将grant得到的权限传递
GRANT role_name [, role_name] ...
TO principal_specification [, principal_specification] ...
[ WITH ADMIN OPTION ];
principal_specification
: USER user
| ROLE role
//撤回角色
REVOKE [ADMIN OPTION FOR] role_name [, role_name] ...
FROM principal_specification [, principal_specification] ... ;
principal_specification
: USER user
| ROLE role
//显示pricipal_name名字的USER或ROLE,所赋予的角色
SHOW ROLE GRANT (USER|ROLE) principal_name;
//显示role_name名字角色下的user或role
SHOW PRINCIPALS role_name;
管理对象特权
//赋权
GRANT
priv_type [, priv_type ] ...
ON table_or_view_name
TO principal_specification [, principal_specification] ...
[WITH GRANT OPTION];
//撤销
REVOKE [GRANT OPTION FOR]
priv_type [, priv_type ] ...
ON table_or_view_name
FROM principal_specification [, principal_specification] ... ;
principal_specification
: USER user
| ROLE role
priv_type
: INSERT | SELECT | UPDATE | DELETE | ALL
//显示权限
SHOW GRANT [principal_specification] ON (ALL | [TABLE] table_or_view_name);
principal_specification
: USER user
| ROLE role
最后来看看该怎么配置。
hive-site.xml
<property>
<name>hive.security.authorization.enabled</name>
<value>true</value>
<description>开启授权</description>
</property>
<property>
<name>hive.server2.enable.doAs</name>
<value> false </value>
<description>使用hiveServer2本地身份</description>
</property>
<property>
<name>hive.users.in.admin.role</name>
<value>admin,hive</value>
<description>admin身份名单</description>
</property>
<property>
<name>hive.security.metastore.authorization.manager</name>
<value>org.apache.hadoop.hive.ql.security.authorization.StorageBasedAuthorizationProvider,org.apache.hadoop.hive.ql.security.authorization.MetaStoreAuthzAPIAuthorizerEmbedOnly</value>
<description>设置metastore只接受本地化访问和需要storage based权限</description>
</property>
<property>
<name>hive.security.authorization.manager</name>
<value>org.apache.hadoop.hive.ql.security.authorization.plugin.sqlstd.SQLStdConfOnlyAuthorizerFactory</value>
<description>使用hive-cli创建表和视图的人拥有默认权限</description>
</property>
hiveserver2-site.xml
hive.security.authorization.manager=org.apache.hadoop.hive.ql.security.authorization.plugin.sqlstd.SQLStdHiveAuthorizerFactory
hive.security.authorization.enabled=true
hive.security.authenticator.manager=org.apache.hadoop.hive.ql.security.SessionStateUserAuthenticator
hive.metastore.uris=' '
总结一下,storage based 或 sql standard 都是为了满足不同的应用需求,且两者可同时配置。至于很多跟高级的引用可以通过自定义不同的组件来实现,具体可看下面的链接。
注意:1.user name 对大小写敏感而role name 对大小写不敏感,因为user name可能由外部系统提供,不受hive控制,所以大小写敏感;
详情参见:
官方文档:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Authorization#space-menu-link-content
HADOOP docker(七):hive权限管理:https://www.cnblogs.com/skyrim/p/7455270.html
TO BE CONTINUED ......