【Hive 精选】Hive 架构详解

2.Hive 架构

2.1 架构总览

  • UI 即 CLI/JDBC:用户可以通过该界面提交 SQL 语句
  • Driver:从 UI 接收 SQL 语句的组件,接着将 SQL 提交给解析器 Compiler,然后通过执行引擎 Execution Engine 把作业转化成 DAG。
  • Compiler:首先将 SQL 进行语法、语义分析,然后生成逻辑计划并进行优化,期间使用了 Metastore 存储的表和分区元数据。
  • Execution Engine:将收到的逻辑计划生成和优化物理计划。Execution Engine 可以根据系统的资源情况、数据分布和查询需求等因素,选择最合适的执行策略和操作顺序,例如选择合适的连接算法、选择合适的数据分区和并行度等。
  • Metastore:存储仓库中各种表和分区的所有结构信息的组件,包括列和列类型信息,用于读写数据的序列化和反序列化器,以及存储数据的相应HDFS文件。

说明:所谓的 Client 有 2 种分别是 HiveServer2 和 Hive CLI,它包含 CLI、Driver、Compiler 和 Execution Engine 模块的能力。

Metastore、HiveServer2 和 Hive CLI 之间有什么关系?
Hive CLI 不依赖 HiveServer2,但 2 者都依赖 Metastore。

HiveServer2 和 Hive CLI 有啥区别?

  • HiveServer2 是 Hive 的服务端组件,提供了远程连接和多用户并发查询的功能。HiveServer2 允许客户端使用不同的协议( JDBC、ODBC 和 Thrift)连接到 Hive,并通过这些协议发送 HiveQL 查询请求。HiveServer2 接收到查询请求后,会将其转发给 Hive 驱动器(Hive Driver)进行处理。Hive 驱动器负责编译和执行查询计划,并将结果返回给 HiveServer2,然后 HiveServer2 再将结果返回给客户端。
  • Hive CLI 是 Hive 提供的命令行界面,允许用户通过命令行输入 HiveQL(Hive Query Language)语句来执行查询。Hive CLI 是直接运行在客户端机器上的,它会解析用户输入的 HiveQL 语句,并将其转换为对应的 MapReduce 或 Tez 任务,然后将任务提交给 Hadoop 集群执行。
  • 高可用方面,Hive CLI 没有 HA 功能,而 HiveServer2 支持 HA,解决了应用端的并发和负载均衡等问题。

SQL 语句的提交流程:UI 调用 Driver 的执行接口,Driver 为查询创建一个会话句柄,并将查询发送给 Compiler 生成执行计划。Compiler 从 Metastore 中获取必要的元数据。这些元数据用于对查询树中的表达式进行类型检查,以及根据查询谓词来修剪分区。Compiler 生成的计划是一个阶段的有向无环图,每个阶段可以是一个 map/reduce 作业。Execution Engine 执行引擎将这些阶段提交给适当的组件,在每个任务(mapper/reducer)中,反序列化读取保存在 HDFS 表或中间结果的数据,接着把中间结果序列化到临时 HDFS 文件,如此类推。

2.2 SQL 语句的提交流程详解

image.png
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,997评论 6 502
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,603评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,359评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,309评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,346评论 6 390
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,258评论 1 300
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,122评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,970评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,403评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,596评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,769评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,464评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,075评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,705评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,848评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,831评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,678评论 2 354

推荐阅读更多精彩内容

  • Hive是什么? Hive是一种基于Hadoop的数据库技术并提供完整的sql查询功能, . HIVE能做什么? ...
    日出卡尔阅读 2,691评论 0 0
  • 0x00 什么是hive hive是构建在hadoop之上的数据仓库组件,是目前大数据领域最常用的数据仓库开源实现...
    曹操a阅读 1,135评论 0 1
  • 前言: Hadoop的课程已经告一段落,基本上在零基础课程里不会再出现了,接下来的课程由若总来上,第一讲Have。...
    ly稻草阅读 3,618评论 1 9
  • 一、Hive简介 1.1 Hive是什么 由Facebook开源的一款基于hadoop的用于统计海量结构化数据的一...
    这一刻_776b阅读 3,476评论 0 1
  • Hive介绍 什么是数据仓库? 数据仓库之父比尔•恩门(Bill Inmon)在1991年出版的"Building...
    蜡笔小虎_007阅读 501评论 0 1