Hive简介及源码编译

Hive简介:

Hive是一个基于Hadoop的数据仓库,可以将结构化数据映射成一张表,并提供类SQL的功能,最初由Facebook提供,使用HQL作为查询接口、HDFS作为存储底层、MapReduce作为执行层,设计目的是让SQL技能良好,但Java技能较弱的分析师可以查询海量数据,2008年facebook把Hive项目贡献给Apache。Hive提供了比较完整的SQL功能(本质是将SQL转换为MapReduce),自身最大的缺点就是执行速度慢。Hive有自身的元数据结构描述,可以使用MySql\ProstgreSql\oracle 等关系型数据库来进行存储,但请注意Hive中的所有数据都存储在HDFS中。Hive具有比较好的灵活性和扩展性,支持UDF,自定义存储格式,适合离线数据处理。

Hive体系架构:

1.用户接口:包括 CLI, Client, WUI。其中最常用的是 CLI,CLI为shell命令行,Cli 启动的时候,会同时启动一个 Hive 副本。Client 是 Hive 的客户端,用户连接至 Hive Server。在启动 Client 模式的时候,需要指出 Hive Server 所在节点,并且在该节点启动 Hive Server。 WUI 是通过浏览器访问 Hive。

2.元数据存储:通常是存储在关系数据库如 mysql, derby 中

3.解释器、编译器、优化器、执行器:完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中,并在随后有MapReduce 调用执行。

4.Hadoop:Hive中数据用 HDFS 进行存储,利用 MapReduce 进行计算。

Hive源码编译:

我们选取CDH版本进行编译,以hive-1.1.0-cdh5.7.0版本为例。

前期准备:

1.配置jdk1.7环境。

2.安装maven。

3.安装hadoop-2.6.0-cdh5.7.0环境(版本号与hive要对应)。

注:前期我使用的是Apache 2.8版本的hadoop,目前已经更改为CDH版本

1.下载并解压源码包hive-1.1.0-cdh5.7.0-src.tar.gz

# 下载地址: http://archive.cloudera.com/cdh5/cdh/5/[root@hadoop000 ~]# su - hadoop

[hadoop@hadoop000 ~]$ cd source

[hadoop@hadoop000 source]$ wget http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0-src.tar.gz

[hadoop@hadoop000 source]$ tar -xzvf hive-1.1.0-cdh5.7.0-src.tar.gz

2.编译

[hadoop@hadoop000 source]$ cd hive-1.1.0-cdh5.7.0

需等待一段时间

[hadoop@hadoop000 hive-1.1.0-cdh5.7.0]$ mvn -Phadoop-2 -Pdist -DskipTests -Dmaven.javadoc.skip=true clean packag

[INFO] Hive ODBC .......................................... SUCCESS [  5.811 s]

[INFO] Hive Shims Aggregator .............................. SUCCESS [  0.755 s]

[INFO] Hive TestUtils ..................................... SUCCESS [  1.294 s]

[INFO] Hive Packaging ..................................... SUCCESS [01:41 min]

[INFO] ------------------------------------------------------------------------

[INFO] BUILD SUCCESS

[INFO] ------------------------------------------------------------------------

[INFO] Total time: 18:22 min

[INFO] Finished at: 2018-06-02T11:37:54+08:00

[INFO] Final Memory: 144M/494M

[INFO] ------------------------------------------------------------------------

# 编译成功 会在源码目录下面的packaging/target目录下面生成一个tar包,相关的hive模块jar包都能在这个tar包里面找到。文件名称:apache-hive-1.1.0-cdh5.7.0-bin.tar.gz

# 可使用此包来安装Hive,也可在此网站http://archive.cloudera.com/cdh5/cdh/5/ 直接下载相应版本已编译的安装包。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Hive简介: Hive是一个基于Hadoop的数据仓库,可以将结构化数据映射成一张表,并提供类SQL的功能,最初...
    MySQL技术阅读 242评论 0 0
  • 1、CDH简介 大家认知度比较高的Hadoop项目一般指的是Apache的Hadoop,但是该项目版本比较复杂,兼...
    刘子栋阅读 6,772评论 0 1
  • Hive是构建在Hadoop HDFS上得一个数据仓库 数据仓库是一个面向主题的、集成的、不可更新的、随时间不变化...
    Sx_Ren阅读 967评论 0 9
  • 微信公众号内容规划 分析运营需求 :明确核心诉求 在写文章之前需要说明运营方向 分析用户画像 :分析用户的属性 了...
    pleasecallme枫子阅读 1,143评论 0 0
  • 那时,你活在所有人的注视里,嫣然一笑,倾慕者众,振臂一呼,应者云集。 我总是行走在角落里,顾影自怜般地,活在边缘化...
    芣苡zx阅读 273评论 4 4