翻译: https://www.cloudera.com/documentation/enterprise/latest/topics/cdh_ig_hiveserver2_configure.html
版本: 5.14.2
在使用HiveServer2之前,您必须进行以下配置更改。不这样做可能会导致不可预知的行为。
警告: HiveServer1在CDH 5.3起不推荐使用,并且将在未来的CDH版本中删除。HiveServer1的用户应该尽快升级到HiveServer2。
HiveServer2内存和硬件要求
重要提示:这些数字只是一般性指导,可能会受到诸如列数,分区,复杂联接和客户端活动等因素的影响。根据您的预期部署,通过测试进行优化以达到您的环境的最佳值。
有关为HiveServer2配置堆以及Hive Metastore和Hive客户端的信息,请参阅Hive组件的堆大小和垃圾收集以及以下视频:
解决HiveServer2服务崩溃问题
当您启动视频,请点击YouTube上在播放器窗口的右下角看它在YouTube上,你可以调整它的大小更清晰的观看。 (!--)
表锁管理器(必需)
您必须正确配置并启用Hive的表锁管理器。这需要安装ZooKeeper并设置一个ZooKeeper集合; 请参阅ZooKeeper安装。
重要提示:如果不这样做将会阻止HiveServer2处理并发查询请求,并可能导致数据损坏。
通过设置属性启用锁管理器 /etc/hive/conf/hive-site.xml 如下所示(用实例中的实际ZooKeeper节点名替换):
<property>
<name>hive.support.concurrency</name>
<description>Enable Hive's Table Lock Manager Service</description>
<value>true</value>
</property>
<property>
<name>hive.zookeeper.quorum</name>
<description>Zookeeper quorum used by Hive's Table Lock Manager</description>
<value>zk1.myco.com,zk2.myco.com,zk3.myco.com</value>
</property>
重要提示:启用表锁管理器而不指定有效的Zookeeper法定节点列表将导致不可预知的行为。确保两个属性都已正确配置。
(如果您仍在使用HiveServer1,还需要上述设置。不推荐使用HiveServer1;尽快迁移到HiveServer2。)
hive.zookeeper.client.port
如果ZooKeeper没有使用ClientPort默认值,你需要设置 hive.zookeeper.client.port 与ZooKeeper使用的值相同。检查/etc/zookeeper/conf/zoo.cfg 以找到ClientPort值。如果ClientPort 设置为除2181(默认值)以外的任何值,设置hive.zookeeper.client.port 。例如,如果ClientPort 设置为2222,设置 hive.zookeeper.client.port 也是2222:
<property>
<name>hive.zookeeper.client.port</name>
<value>2222</value>
<description>
The port at which the clients will connect.
</description>
</property>
JDBC驱动程序
HiveServer2和HiveServer1的连接URL格式和驱动程序类别不同:
HiveServer版本 | 连接网址 | 驱动程序类 |
---|---|---|
HiveServer2 | jdbc:hive2://<host>:<port> | org.apache.hive.jdbc.HiveDriver |
HiveServer1 | jdbc:hive://<host>:<port> | org.apache.hadoop.hive.jdbc.HiveDriver |
认证 Authentication
HiveServer2可以配置为验证所有连接; 默认情况下,它允许任何客户端连接。HiveServer2支持Kerberos或LDAP 身份验证; 配置属性为hive.server2.authentication 。您还可以配置可插入身份验证,它允许您为HiveServer2使用自定义身份验证提供程序; 和HiveServer2 Impersonation,它允许用户以连接用户的身份执行查询和访问HDFS文件,而不是启动HiveServer2守护进程的超级用户。有关更多信息,请参阅Hive安全配置。
同时运行HiveServer2和HiveServer
警告:由于并发和安全问题,HiveServer1和Hive CLI在CDH 5中不推荐使用,并且将在未来版本中删除。Cloudera建议您尽快迁移到Beeline和HiveServer2。如果您使用HiveServer2的Beeline,则不需要Hive CLI。
HiveServer2和HiveServer1可以在同一个系统上并发运行,共享相同的数据集。这允许您运行HiveServer1以支持使用本机HiveServer1 Thrift绑定的Perl或Python脚本。
默认情况下,HiveServer2和HiveServer1都绑定到端口10000,所以至少其中一个必须配置为使用不同的端口。您可以通过hive -site.xml中的hive.server2.thrift.port 设置HiveServer2的端口属性。例如:
<property>
<name>hive.server2.thrift.port</name>
<value>10001</value>
<description>TCP port number to listen on, default 10000</description>
</property>
您也可以通过设置这些环境变量来指定端口(以及HiveServer2的主机IP地址):
HiveServer版本 | Port | 主机地址 |
---|---|---|
HiveServer2 | HIVE_SERVER2_THRIFT_PORT | HIVE_SERVER2_THRIFT_BIND_HOST |
HiveServer1 | HIVE_PORT | < 主机绑定不能被指定 > |
总结:
- 使用 HiveServer2 和 Beeline , 不推荐使用 HiveServer1 和 Hive CLI 。
- 为了支持并发, 需要使用zk 。
- HiveServer2的连接url和driver class 与1不同。