YARN工作原理 YARN调度器

Mapreduce 1.0 旧的MapReduce架构

旧的MapReduce架构
、

MapReduce架构

基本概念

JobTracker: 负责资源管理，跟踪资源消耗和可用性，作业生命周期管理（调度作业任务，跟踪进度，为任务提供容错）
TaskTracker: 加载或关闭任务，定时报告认为状态

旧的架构的问题

JobTracker是MapReduce的集中处理点，存在单点故障
JobTracker完成了太多的任务，造成了过多的资源消耗，当MapReduce job 非常多的时候，会造成很大的内存开销。这也是业界普遍总结出老Hadoop的MapReduce只能支持4000 节点主机的上限
在TaskTracker端，以map/reduce task的数目作为资源的表示过于简单，没有考虑到cpu/ 内存的占用情况，如果两个大内存消耗的task被调度到了一块，很容易出现OOM
在TaskTracker端，把资源强制划分为map task slot和reduce task slot, 如果当系统中只有map task或者只有reduce task的时候，会造成资源的浪费，也就集群资源利用的问题

Hadoop2.0 YARN 架构

在这里插入图片描述

在Hadoop2.0中, YARN负责管理MapReduce中的资源(内存, CPU等)并且将其打包成Container. 这样可以精简MapReduce, 使之专注于其擅长的数据处理任务, 将无需考虑资源调度. YARN会管理集群中所有机器的可用计算资源. 基于这些资源YARN会调度应用(比如MapReduce)发来的资源请求, 然后YARN会通过分配Container来给每个应用提供处理能力

基本概念

ResourceManager

负责整个集群的资源管理和分配，是一个全局的资源管理系统。
NodeManager 以心跳的方式向 ResourceManager 汇报资源使用情况（目前主要是 CPU 和
内存的使用情况）。RM 只接受 NM 的资源回报信息，对于具体的资源处理则交给 NM 自己
处理。
YARN Scheduler 根据 application 的请求为其分配资源，不负责 application job 的
监控、追踪、运行状态反馈、启动等工作。

NodeManager

NodeManager 是每个节点上的资源和任务管理器，它是管理这台机器的代理，负责该节
点程序的运行，以及该节点资源的管理和监控。YARN 集群每个节点都运行一个
NodeManager。
NodeManager 定时向 ResourceManager 汇报本节点资源（CPU、内存）的使用情况和
Container 的运行状态。当 ResourceManager 宕机时 NodeManager 自动连接 RM 备用节
点。
NodeManager 接收并处理来自 ApplicationMaster 的 Container 启动、停止等各种请
求。

ApplicationMaster

用户提交的每个应用程序均包含一个ApplicationMaster，他可以运行在ResourceManager意外的任何机器上ResourceManager 以外的机器上。
负责与RM调度器协商获取资源（container）
将得到的任务进一步分配给内部的任务(资源的二次分配)
与NM通信以启动/停止任务
监控所有任务运行状态，并在任务运行失败时重新为任务申请资源以重启任务

Container

在Hadoop集群中，平衡内存（RAM）、处理器（CPU核心）和磁盘的使用是至关重要的，合理规划以免某一项引起瓶颈制约。一般的建议是，一块磁盘和一个CPU核心上配置两个Container会达到集群利用率的最佳平衡,Container是YARN中处理能力的基本单元, 是对内存, CPU等的封装
从可用的硬件资源角度看，要调整群集每个节点Yarn和MapReduce的内存配置到合适的数据，应注意以下几个重要的元素：

RAM (总内存大小)
CORES (CPU核心数)
DISKS (磁盘数)
Yarn和MapReduce的总的可用内存应考虑到保留的内存。保留的内存是由系统进程和其他Hadoop进程（如Hbase）所需要的内存。

每个节点的内存总量	建议保留系统内存	建议保留HBase的内存
4 GB	1 GB	1 GB
8 GB	2 GB	1 GB
16 GB	2 GB	2 GB
24 GB	4 GB	4 GB
48 GB	6 GB	8 GB
64 GB	8 GB	8 GB
72 GB	8 GB	8 GB
96 GB	12 GB	16 GB
128 GB	24 GB	24 GB
256 GB	32 GB	32 GB
512 GB	64 GB	64 GB

保留内存=保留系统内存+保留HBase内存（如果HBase是在同一个节点）
下面的计算是确定每个节点的Container允许的最大数量。
Container数量=min (2CORES, 1.8DISKS, (可用内存)/最低Container的大小)
最低Container的大小这个值是依赖于可用的RAM数量——在较小的存储节点，最小的Container的大小也应较小。下面的表列出了推荐值：

每个节点的总内存	建议的最低Container的大小
小于 4 GB	256 MB
4 GB 到 8 GB	512 MB
8 GB 到 24 GB	1024 MB
24 GB 以上	2048 MB

最后计算的每个Container的内存大小是

每个Container的内存大小 = max(最小Container内存大小, (总可用内存) /Container数))

新旧架构对比

YARN 的核心就是将jobTracker的功能进行拆解，分成了资源管理和任务调度监控两个进程，一个全局的资源管理和每个作业的管理。ResourceManager和Nodemanager提供了计算资源的分配和管理，ApplicationMaster负责完成程序的运行.YARN架构下形成了一个通用的资源管理平台和一个通用的应用计算平，避免了旧架构的单点问题和资源利用率问题，同时也让在其上运行的应用不再局限于MapReduce形式

Yarn基本流程

在这里插入图片描述

用户向YARN中提交应用程序，其中包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等
ResourceManager为该应用程序分配第一个Container，并与对应的Node-Manager通信，要求它在这个Container中启动应用程序的ApplicationMaster
ApplicationMaster首先向ResourceManager注册，这样用户可以直接通过ResourceManage查看应用程序的运行状态，然后它将为各个任务申请资源，并监控它的运行状态，直到运行结束，即重复步骤4~7
ApplicationMaster采用轮询的方式通过RPC协议向ResourceManager申请和领取资源
一旦ApplicationMaster申请到资源后，便与对应的NodeManager通信，要求它启动任务
NodeManager为任务设置好运行环境(包括环境变量、JAR包、二进制程序等)后，将任务启动命令写到一个脚本中，并通过运行该脚本启动任务
各个任务通过某个RPC协议向ApplicationMaster汇报自己的状态和进度，以让ApplicationMaster随时掌握各个任务的运行状态，从而可以在任务失败时重新启动任务。在应用程序运行过程中，用户可随时通过RPC向ApplicationMaster查询应用程序的当前运行状态
应用程序运行完成后，ApplicationMaster向ResourceManager注销并关闭自己

Yarn调度器Scheduler

理想情况下，我们应用对 Yarn 资源的请求应该立刻得到满足，但现实情况资源往往是
有限的，特别是在一个很繁忙的集群，一个应用资源的请求经常需要等待一段时间才能的到
相应的资源。在Yarn中，负责给应用分配资源的就是Scheduler。其实调度本身就是一个
难题，很难找到一个完美的策略可以解决所有的应用场景。为此Yarn提供了多种调度器
和可配置的策略供我们选择。在 Yarn 中有三种调度器可以选择：FIFO Scheduler ，Capacity Scheduler，Fair Scheduler。

三种调度器基本原理

在这里插入图片描述

FIFO Scheduler: 把应用按提交的顺序排成一个队列，这是一个先进先出队列，在进行资源分配的时候，先给队列中最头上的应用进行分配资源，待最头上的应用需求满足后再给下一个分配，以此类推
Capacity 调度器允许多个组织共享整个集群，每个组织可以获得集群的一部分计算能力。通过为每个组织分配专门的队列，然后再为每个队列分配一定的集群资源，这样整个集群就可以通过设置多个队列的方式给多个组织提供服务了。除此之外，队列内部又可以垂直划分，这样一个组织内部的多个成员就可以共享这个队列资源了，在一个队列内部，资源的调度是采用的是先进先出(FIFO)策略。
Fair 针对不同的应用（也可以为用户或用户组），每个应用属于一个队列，主旨是让每个应用分配的资源大体相当。（当然可以设置权重），若是只有一个应用，那集群所有资源都是他的。和 Capacity的区别是不需要预留资源。适用情况：共享大集群、队列之间有较大差别。

配置文件位置

capacity调度器的启用：
在ResourceManager节点上的yarn-site.xml设置
Property===>yarn.resourcemanager.scheduler.class
Value=====>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler
capacity调度器的配置:
在目录$HADOOP_HOME/hadoop/etc/hadoop/capacity-scheduler.xml

YARN-FailOver

任务失败

运行时异常或者JVM退出都会报告给AM
通过心跳检查任务的timeout，会检查多次（可配置）才判断该任务是否有效
失败的任务或者作业都有AM重新运行

ApplicationMaster失败

AM 定时发送心跳信号到RM，通常一旦AM失败，就认为失败，但是也可以通过配置多次失败才算失败
AM失败后，RM会启动一个新的ApplicationMaster
新的AM负责回复之前错误的AM的状态，(yarn.app.mapreduce.am.job.recovery.enable=true)，这一步是通过将应用运行状态保存到共享的存储上来实现的，ResourceManager不会负责任务状态的保存和恢复
Client也会定时向ApplicationMaster查询进度和状态，一旦发现其失败，则向ResouceManager询问新的ApplicationMaster

NodeManager失败

NodeManager定时发送心跳到ResourceManager，如果超过一段时间没有收到心跳消息，ResourceManager就会将其移除
任何运行在该NodeManager上的任务和ApplicationMaster都会在其他NodeManager上进行恢复
如果某个NodeManager失败的次数太多，ApplicationMaster会将其加入黑名单，任务调度时不在其上运行任务

ResourceManager失败

通过checkpoint机制，定时将其状态保存到磁盘，然后失败的时候，重新运行
通过zookeeper同步状态和实现透明的HA

最后编辑于：2019.02.24 15:22:24

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 213,711评论 6赞 493
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,079评论 3赞 387
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 159,194评论 0赞 349
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,089评论 1赞 286
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,197评论 6赞 385
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,306评论 1赞 292
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,338评论 3赞 412
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,119评论 0赞 269
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,541评论 1赞 306
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,846评论 2赞 328
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,014评论 1赞 341
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,694评论 4赞 337
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,322评论 3赞 318
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,026评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,257评论 1赞 267
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,863评论 2赞 365
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,895评论 2赞 351

YARN工作原理 YARN调度器

Mapreduce 1.0 旧的MapReduce架构

基本概念

旧的架构的问题

Hadoop2.0 YARN 架构

基本概念

ResourceManager

NodeManager

ApplicationMaster

Container

新旧架构对比

Yarn基本流程

Yarn调度器Scheduler

三种调度器基本原理

配置文件位置

YARN-FailOver

任务失败

ApplicationMaster失败

NodeManager失败

ResourceManager失败

推荐阅读更多精彩内容