数据科学之路（7）即席查询工具Impala

我们在前面两篇中介绍了数据仓库工具 Hive，但是早期的 Hive 是依赖 Hadoop 的 MapReduce 进行并行数据处理，而 MapReduce 作为离线批处理计算框架的延时是非常高的，用 Hive 做实时交互式查询的等待一般都是在分钟级别，这显然无法满足企业的即席查询要求。为了解决实时交互式查询这一问题，Cloudera 公司开发了 Impala，Impala 的查询速度是 Hive 的 3~30倍。当然，Impala 也提供了数据仓库的功能，业界很多人甚至认为，Impala 将会替代 Hive 成为数据仓库最火的工具。

Impala 系统架构

上图给出了 Impala 的整个系统架构，其中黄色标出来的部分是属于 Impala 的系统组件，而蓝色部分是 Hadoop 的其他组件，从这张图小伙伴们就可以明白，Impala 并不是单独部署而是跟 Hadoop 的其他组件部署在同一个集群上的。正是由于部署在同一个集群上，Impala 才可以使用 HDFS 和 HBase 来存储数据，还可以使用 Hive 为其存储元数据！

Impalad（Impala Daemon）：驻留在集群的每个 DataNode 节点上的守护进程，与集群中的其他节点上的 Impalad 进行分布式并行工作，负责具体的查询任务，其包含三个模块：Query Planner，Query Coordinator 和 Query Exec Engine。
Impalad 主要负责协调客户端提交的查询的执行，与 HDFS 的数据节点（HDFS DataNode）运行在同一节点上，这样可以就近处理数据，实现了计算向数据靠拢。给其他 Impalad 分配任务以及收集其他 Impalad 的执行结果进行汇总，这也比较好理解，对于大规模数据，要想快速得到结果，肯定是分布式查询，将一个大的查询分成很多的子查询，每个子查询（Impalad 执行其他 Impalad 给其分配的任务，对本地 HDFS 和 HBase 里的部分数据进行操作）处理一个节点上的数据，然后再将这些结果进行汇总。

StateStore：负责整个元数据管理和状态信息维护，每个 Impala 的查询提交时，系统都会为其创建一个 StateStored 进程，前面我们刚提到 Impalad 会将一个查询任务分解成很多子查询，并让其他节点上的 Impalad 为其执行子查询任务，那么 Impala 如何知道这些子查询是否成功了呢？就要靠 StateStored 进程去跟踪每个 Impalad 的执行情况以及监控状态信息。所以，StateStored 进程就是负责收集分布在集群中各个 Impalad 进程的资源信息用于查询调度。

CLI：即用户访问接口，给用户提供查询使用的命令行工具。

需要注意的是，Impala 的元数据是直接存储在 Hive 中的。所以，Impala 采用与 Hive 相同的元数据、相同的 SQL 语法，相同的 ODBC 驱动程序和用户接口，这样做的好处是可以在一个 Hadoop 平台上统一部署 Hive 和 Impala 等分析工具，实现在一个平台上可以同时满足批处理和实时查询。

Impala 查询的执行过程

第0步，在用户提交查询之前，Impala 就已经创建了一个负责协调客户端提交查询的 Impalad 进程，该进程会向 StateStore 提交注册订阅信息，StateStore 会创建一个 statestored 进程，statestored 进程通过创建多个线程来处理 Impalad 的注册订阅信息。
第1步，用户通过 CLI 客户端提交一个查询到 Impalad 进程，Impalad 的 Query Planner 对 SQL 语句进行解析，生成解析树，Planner 把这个查询的解析树再变成若干 PlanFragment，发送到 Query Coordinator。
第2步，Coordinator 通过从 MySQL 元数据库中获取元数据，从 HDFS 的 NameNode 节点中获取数据的存储地址，以得到存储这个查询相关数据的所有数据节点。
第3步，Coordinator 初始化相应 Impalad 上的任务执行，即把查询任务分配给所有存储这个查询相关数据的数据节点。
第4步，Query Executor 通过流式交换中间输出，并由 Query Coordinator 汇聚来自各个 Impalad 的结果。
第5步，Coordinator 把汇总后的结果返回给 CLI 客户端。

Impala 与 Hive 的比较

不同点

Hive 适合长时间的批处理查询分析，而 Impala 适合实时交互式 SQL 查询。
Hive 依赖于 MapReduce 计算框架，Impala 把整个执行计划表现为一棵完整的执行计划树，直接分发执行计划到各个 Impalad 执行查询。
Hive 在执行过程中，如果内存放不下所有数据则会启用磁盘，以保证查询可以顺利执行。但是 Impala 在遇到内存放不下的情况时，不会利用磁盘。

相同点

Hive 和 Impala 均采用 HDFS 和 HBase 存储数据。
Hive 和 Impala 均使用相同的元数据。
Hive 和 Impala 均是通过将 SQL 解析处理成计划树，生成执行计划。

那么，通过本篇的讲解，相信小伙伴们已经对 Impala 有了定位，Impala 的存在并不是为了取代 Hive，而是为了弥补 Hive 的处理时间过长，无法做到实时查询的问题。所以，企业在实际使用时，往往是配合使用 Hive 和 Impala，即先用 Hive 对数据进行转换处理之后，再使用 Impala 在 Hive 处理完成的数据集上进行快速数据分析。