数据科学之路(8)不得不说的Tez

我们在《数据科学之路(5)数据仓库工具》中提到了 Hive 既可以运行在 MapReduce 上,也可以运行在 Tez 和 Spark 上,那么 Tez 到底是什么呢?是跟 MapReduce 和 Spark 一样都是大数据生态中的计算框架吗?其运作原理又是什么呢?想必小伙伴们在学习《数据科学之路(5)数据仓库工具》的时候就存在了诸如此类的众多疑问,本篇,我将会跟小伙伴们一起揭开 Tez 的神秘面纱!

Tez 是一个构建在 Yarn 之上的支持复杂的 DAG 任务的数据处理框架。是由 Hortonworks 开源,其核心思想是把 MapReduce 的过程分成若干子过程,同时可以把多个 MapReduce 任务组合成一个较大的 DAG 任务,减少了 MapReduce 之间的文件存储,同时合理地组合其子过程从而大幅度提升 MapReduce 性能,Hortonworks 把 Tez 应用到数据仓库 Hive 的优化中,使得性能提升了约100倍!所以我们也可以认为,Tez 是出于 MapReduce 而胜于 MapReduce!

HiveQL 在 MapReduce 和 Tez 的执行情况对比

从上图,我们可以看到,传统的 MapReduce 程序对于一个复杂的 HiveQL 的做法是将其拆成4个有依赖关系的 MapReduce 作业,有3次写 HDFS 的操作(上图中的云表示写 HDFS 操作)。但是 Tez 是将多个有依赖关系的作业转换为一个作业,只需要写一次 HDFS,大大简化了中间节点。简单来说,相比于 MapReduce,Tez 的优化主要体现在:去除连续两个作业之间的写 HDFS 操作;去除每个工作流中多余的 Map 阶段这两个点。

(Tez+Hive)与 Impala 的区别

Tez 在解决 Hive 延迟大、性能低等问题的思路,是和那些支持实时交互式查询分析的产品(Impala)不同的,Impala 是完全抛弃了 MapReduce 计算框架,并借助于类似并行关系型数据库的分布式查询引擎,并在每个数据节点上执行子查询,不会将查询转换成 MapReduce 作业,从而大大降低延迟,满足实时交互性查询的需求。但是,Tez 针对数据仓库进行优化,提出了“Tez+Hive”的解决方案,其仍然采用 MapReduce 计算框架,但是对 DAG 的作业依赖关系进行了裁剪,并将多个小作业合并成一个大作业,这样,不仅计算量减少了,而且写 HDFS 次数也会大大减少。

Tez 实现方法

Tez 将 MapReduce 的 Map 和 Reduce 操作进一步拆分,将 Map 拆分为 Input、Processor、Sort、Merge 和 Output,将 Reduce 拆分成 Input、Shuffle、Sort、Merge、Processor 和 Output 等,并对外提供了相应的可编程组件:

  • Input:对输入数据源的抽象,将输入数据解析成<key,value>的形式
  • Output:对输出数据源的抽象,将用户程序产生的<key,value>写入文件系统
  • Partitioner:对数据进行分片,类似于 MapReduce 中的 Partitioner
  • Processor:对计算的抽象,从一个 Input 中获取数据,经处理后,通过 Output 输出
  • Task:对任务的抽象,每一个 Task 都由一个 Input、Output 和 Processor 组成
  • Master:管理各个 Task 的依赖关系,并按照顺序依赖执行他们
  • Sort:排序,分为本地数据排序和远程拷贝数据并排序

OK,本篇到这里就要结束了,想了解更多有关于数据科学的小伙伴们,可以关注我哦!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容