数据科学之路(7)即席查询工具Impala

我们在前面两篇中介绍了数据仓库工具 Hive,但是早期的 Hive 是依赖 Hadoop 的 MapReduce 进行并行数据处理,而 MapReduce 作为离线批处理计算框架的延时是非常高的,用 Hive 做实时交互式查询的等待一般都是在分钟级别,这显然无法满足企业的即席查询要求。为了解决实时交互式查询这一问题,Cloudera 公司开发了 Impala,Impala 的查询速度是 Hive 的 3~30倍。当然,Impala 也提供了数据仓库的功能,业界很多人甚至认为,Impala 将会替代 Hive 成为数据仓库最火的工具。

Impala 系统架构

上图给出了 Impala 的整个系统架构,其中黄色标出来的部分是属于 Impala 的系统组件,而蓝色部分是 Hadoop 的其他组件,从这张图小伙伴们就可以明白,Impala 并不是单独部署而是跟 Hadoop 的其他组件部署在同一个集群上的。正是由于部署在同一个集群上,Impala 才可以使用 HDFS 和 HBase 来存储数据,还可以使用 Hive 为其存储元数据!

Impalad(Impala Daemon):驻留在集群的每个 DataNode 节点上的守护进程,与集群中的其他节点上的 Impalad 进行分布式并行工作,负责具体的查询任务,其包含三个模块:Query PlannerQuery CoordinatorQuery Exec Engine
Impalad 主要负责协调客户端提交的查询的执行,与 HDFS 的数据节点(HDFS DataNode)运行在同一节点上,这样可以就近处理数据,实现了计算向数据靠拢。给其他 Impalad 分配任务以及收集其他 Impalad 的执行结果进行汇总,这也比较好理解,对于大规模数据,要想快速得到结果,肯定是分布式查询,将一个大的查询分成很多的子查询,每个子查询(Impalad 执行其他 Impalad 给其分配的任务,对本地 HDFS 和 HBase 里的部分数据进行操作)处理一个节点上的数据,然后再将这些结果进行汇总。

StateStore:负责整个元数据管理和状态信息维护,每个 Impala 的查询提交时,系统都会为其创建一个 StateStored 进程,前面我们刚提到 Impalad 会将一个查询任务分解成很多子查询,并让其他节点上的 Impalad 为其执行子查询任务,那么 Impala 如何知道这些子查询是否成功了呢?就要靠 StateStored 进程去跟踪每个 Impalad 的执行情况以及监控状态信息。所以,StateStored 进程就是负责收集分布在集群中各个 Impalad 进程的资源信息用于查询调度。

CLI:即用户访问接口,给用户提供查询使用的命令行工具。

需要注意的是,Impala 的元数据是直接存储在 Hive 中的。所以,Impala 采用与 Hive 相同的元数据、相同的 SQL 语法,相同的 ODBC 驱动程序和用户接口,这样做的好处是可以在一个 Hadoop 平台上统一部署 Hive 和 Impala 等分析工具,实现在一个平台上可以同时满足批处理和实时查询。

Impala 查询的执行过程

第0步,在用户提交查询之前,Impala 就已经创建了一个负责协调客户端提交查询的 Impalad 进程,该进程会向 StateStore 提交注册订阅信息,StateStore 会创建一个 statestored 进程,statestored 进程通过创建多个线程来处理 Impalad 的注册订阅信息。
第1步,用户通过 CLI 客户端提交一个查询到 Impalad 进程,Impalad 的 Query Planner 对 SQL 语句进行解析,生成解析树,Planner 把这个查询的解析树再变成若干 PlanFragment,发送到 Query Coordinator。
第2步,Coordinator 通过从 MySQL 元数据库中获取元数据,从 HDFS 的 NameNode 节点中获取数据的存储地址,以得到存储这个查询相关数据的所有数据节点。
第3步,Coordinator 初始化相应 Impalad 上的任务执行,即把查询任务分配给所有存储这个查询相关数据的数据节点。
第4步,Query Executor 通过流式交换中间输出,并由 Query Coordinator 汇聚来自各个 Impalad 的结果。
第5步,Coordinator 把汇总后的结果返回给 CLI 客户端。

Impala 与 Hive 的比较

不同点

  1. Hive 适合长时间的批处理查询分析,而 Impala 适合实时交互式 SQL 查询。
  2. Hive 依赖于 MapReduce 计算框架,Impala 把整个执行计划表现为一棵完整的执行计划树,直接分发执行计划到各个 Impalad 执行查询。
  3. Hive 在执行过程中,如果内存放不下所有数据则会启用磁盘,以保证查询可以顺利执行。但是 Impala 在遇到内存放不下的情况时,不会利用磁盘。

相同点

  1. Hive 和 Impala 均采用 HDFS 和 HBase 存储数据。
  2. Hive 和 Impala 均使用相同的元数据。
  3. Hive 和 Impala 均是通过将 SQL 解析处理成计划树,生成执行计划。

那么,通过本篇的讲解,相信小伙伴们已经对 Impala 有了定位,Impala 的存在并不是为了取代 Hive,而是为了弥补 Hive 的处理时间过长,无法做到实时查询的问题。所以,企业在实际使用时,往往是配合使用 Hive 和 Impala,即先用 Hive 对数据进行转换处理之后,再使用 Impala 在 Hive 处理完成的数据集上进行快速数据分析。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,524评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,869评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,813评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,210评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,085评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,117评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,533评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,219评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,487评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,582评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,362评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,218评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,589评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,899评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,176评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,503评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,707评论 2 335

推荐阅读更多精彩内容