2.Hive 架构
2.1 架构总览
- UI 即 CLI/JDBC:用户可以通过该界面提交 SQL 语句
- Driver:从 UI 接收 SQL 语句的组件,接着将 SQL 提交给解析器 Compiler,然后通过执行引擎 Execution Engine 把作业转化成 DAG。
- Compiler:首先将 SQL 进行语法、语义分析,然后生成逻辑计划并进行优化,期间使用了 Metastore 存储的表和分区元数据。
- Execution Engine:将收到的逻辑计划生成和优化物理计划。Execution Engine 可以根据系统的资源情况、数据分布和查询需求等因素,选择最合适的执行策略和操作顺序,例如选择合适的连接算法、选择合适的数据分区和并行度等。
- Metastore:存储仓库中各种表和分区的所有结构信息的组件,包括列和列类型信息,用于读写数据的序列化和反序列化器,以及存储数据的相应HDFS文件。
说明:所谓的 Client 有 2 种分别是 HiveServer2 和 Hive CLI,它包含 CLI、Driver、Compiler 和 Execution Engine 模块的能力。
Metastore、HiveServer2 和 Hive CLI 之间有什么关系?
Hive CLI 不依赖 HiveServer2,但 2 者都依赖 Metastore。
HiveServer2 和 Hive CLI 有啥区别?
- HiveServer2 是 Hive 的服务端组件,提供了远程连接和多用户并发查询的功能。HiveServer2 允许客户端使用不同的协议( JDBC、ODBC 和 Thrift)连接到 Hive,并通过这些协议发送 HiveQL 查询请求。HiveServer2 接收到查询请求后,会将其转发给 Hive 驱动器(Hive Driver)进行处理。Hive 驱动器负责编译和执行查询计划,并将结果返回给 HiveServer2,然后 HiveServer2 再将结果返回给客户端。
- Hive CLI 是 Hive 提供的命令行界面,允许用户通过命令行输入 HiveQL(Hive Query Language)语句来执行查询。Hive CLI 是直接运行在客户端机器上的,它会解析用户输入的 HiveQL 语句,并将其转换为对应的 MapReduce 或 Tez 任务,然后将任务提交给 Hadoop 集群执行。
- 高可用方面,Hive CLI 没有 HA 功能,而 HiveServer2 支持 HA,解决了应用端的并发和负载均衡等问题。
SQL 语句的提交流程:UI 调用 Driver 的执行接口,Driver 为查询创建一个会话句柄,并将查询发送给 Compiler 生成执行计划。Compiler 从 Metastore 中获取必要的元数据。这些元数据用于对查询树中的表达式进行类型检查,以及根据查询谓词来修剪分区。Compiler 生成的计划是一个阶段的有向无环图,每个阶段可以是一个 map/reduce 作业。Execution Engine 执行引擎将这些阶段提交给适当的组件,在每个任务(mapper/reducer)中,反序列化读取保存在 HDFS 表或中间结果的数据,接着把中间结果序列化到临时 HDFS 文件,如此类推。