【Hadoop】基于QJM的HDFS高可用系列四 - 自动failover

官方文档翻译,官方链接
翻译水平有限,且以学习为主,请谅解和提意见。
转载请注明出处!!!

自动failover

介绍

前面详细说明了如何配置手工failover。在那种模式下,系统不能自动地触发将NameNode从active状态failover到standby状态,即使active节点已经失败了。这部分将讲述如何配置、部署自动failover。

组件

自动failover需要增加两个新的组件到HDFS上:一个是Zookeeper quorum(仲裁),另一个是ZKFailoverController进程(简称ZKFC)。
Apache Zookeeper是一个高可用的服务,对于小规模数据协调,通知客户端数据变化,监控客户端失败。自动failover的实现是基于ZK以下的事实:

  • Failure detection - 集群中的每个NameNode机器在ZK上保持持久化会话。如果机器崩溃,ZK会话过期,通知其它NameNode有一个failover将被触发。
  • Active NameNode election - ZK提供一个简单机制,选举出唯一的一个节点作为active。如果当前的active NameNode崩溃,另一个节点可能在ZK持有特定的互斥型锁,表名它将成为下一个active。

ZKFC是一个新的组件,是一个ZK客户端,也监控和管理NameNode的状态。NameNode运行的所在的每个机器也要运行一个ZKFC,ZKFC负责:

  • Health monitoring(健康监控) - ZKFC使用健康检查命令定期地ping本地NameNode。只要NameNode及时响应一个健康状态,ZKFC则确认节点健康。如果节点已经崩溃、冻结、其它不健康状态,健康监控器将标记它为不健康。
  • ZooKeeper session management(ZK会话管理)- 当本地NameNode健康,ZKFC在ZK上持有一个打开的会话。如果本地NameNode是active的,它持有指定的znode锁。这个锁用于ZK支持“短暂”的节点,如果会话过期,锁节点将自动被删除。
  • ZooKeeper-based election(基于ZK的选举) - 如果本地NameNode健康,ZKFC看到当前没有其它节点控制znode锁,它自己将尝试获取这个所有。如果成功,则它胜选,负责运行一个failover,使本地NameNode成为active。failover进程类似于上面描述的手工failover:首先,如果必要前一个active被fencing了,然后,本地的NameNode转换为active状态。

对应自动failover设计上的更多描述,到Apache HDFS JIRA上,参考设计文档HDFS-2185。

部署ZK

在典型的部署中,ZK守护进程被配置、运行在3或5个节点上。由于ZK自身资源需求,分配ZK节点的硬件资源可以与HDFS NameNode的机器配置一样。许多人选择在同一节点上部署3个ZK进程作为YARN ResourceManager。配置ZK节点将数据存储在独立磁盘驱动器上。
安装ZK超出本文档范围。

开始前

配置自动failover前,需要停掉集群。目前当集群运行时,还不能从一个手工failover转换到自动failover。

配置自动failover

自动failover需要增加两个新的配置参数。
在hdfs-site.xml中,增加:

<property>
<name>dfs.ha.automatic-failover.enabled</name>
<value>true</value>
</property>

在core-site.xml文中,为了自动failover需要集群设置这个:

<property>
<name>ha.zookeeper.quorum</name>
<value>zk1.example.com:2181,zk2.example.com:2181,zk3.example.com:2181</value>
</property>

这个主机端口对列表运行着ZK服务。
使用前文描述的参数,这些配置可以在每个nameservice上使用nameservice ID作为后缀进行设置。例如,集群使用联邦机制时,通过设置dfs.ha.automatic-failover.enabled.my-nameservice-id参数,可以准确地配置某一个nameservice使用自动failover。

在ZK中,初始化HA状态

这些配置键添加后,下一步是在ZK中初始化必要的状态。在其中一个NameNode主机,执行如下命令,完成这个初始化。

[hdfs]$ $HADOOP_PREFIX/bin/hdfs zkfc -formatZK

这个命令将在ZK中创建一个znode,用于存储自动failover所需要的数据。

使用start-dfs.sh启动集群

由于已经配置了自动failover,执行start-dfs.sh脚本将在运行NameNode的节点上启动一个ZKFC守护进程。当ZKFC启动,它们将自动选择一个NameNode成为active。

手工启动集群

如果手工管理集群,需要手工在运行NameNode的节点上启动ZFKC进程。使用如下命令启动:

[hdfs]$ $HADOOP_PREFIX/sbin/hadoop-daemon.sh --script $HADOOP_PREFIX/bin/hdfs start zkfc
安全访问ZK

如果运行一个带安全机制的集群,或许想确保存储在ZK上的信息也是安全的。阻止恶意客户端篡改ZK中的元数据,触发一个错误的failover。
为了在ZK中保护信息,需要在core-site.xml文件添加如下:

<property>
<name>ha.zookeeper.auth</name>
<value>@/path/to/zk-auth.txt</value>
</property>
<property>
<name>ha.zookeeper.acl</name>
<value>@/path/to/zk-acl.txt</value>
</property>

请初一这些值里的'@'字符 - 这个表示配置不是内联的,而是指向磁盘上的文件。
第一个配置文件是指定一个ZK认证列表,与ZK CLI使用相同的格式,格式如下:

digest:hdfs-zkfcs:mypassword

hdfs-zkfcs是一个ZK用户名,mypassword使用密码串。
接下来,产生一个与这个认证一致的ZK ACL。使用如下命令:

[hdfs]$ java -cp $ZK_HOME/lib/*:$ZK_HOME/zookeeper-3.4.2.jar org.apache.zookeeper.server.auth.DigestAuthenticationProvider hdfs-zkfcs:mypassword
output: hdfs-zkfcs:mypassword->hdfs-zkfcs:P/OQvnYyU/nF/mGYvB/xurX8dYs=

复制'->'后面的字符串,粘贴到zk-acls.txt,前缀加上'digest:'。例如:

digest:hdfs-zkfcs:vlUvLnd8MlacsE80rDuu6ONESbM=:rwcda

为了让这些ACL生效,需要重新运行zkfc -formatZK命令。
这样做之后,可以验证的acl,ZK CLI如下:

[zk: localhost:2181(CONNECTED) 1] getAcl /hadoop-ha
'digest,'hdfs-zkfcs:vlUvLnd8MlacsE80rDuu6ONESbM=
: cdrwa
验证自动failover

自动failover部署完成,既可以测试了。
首先定位active NameNode。可以通过访问NameNode的Web页面,来得到active NameNode。
定位到active NameNode,可以在这个节点上制造一个失败。例如,可以执行kill -9 <pid of NN> 来模拟JVM崩溃。或者关机,或者拔掉网线模拟不同的故障。期望测试的故障触发后,其它的NameNode将在几秒内自动成为active的。故障检测和触发故障转移所需的时间取决于ha.zookeeper.session-timeout.ms**的配置,默认5秒。
如果测试没有成功,可能有一个错误配置存在。检查zkfc守护进程以及NameNode守护进程的日志,进一步诊断问题。

自动failover的FAQ

  • Is it important that I start the ZKFC and NameNode daemons in any particular order?(ZKFC和NameNode有启动顺序吗?)
    没有,在指定的节点上,可以在相应的NameNode启动之前或之后,启动ZKFC。

  • What additional monitoring should I put in place?(额外的监控我应该放在什么地方?)
    需要将空运行NameNode的每台主机,确保ZKFC运行。例如ZKFC意外退出等ZK异常,需要重启ZKFC,确保系统的自动failover。
    另外,还有监控每个ZK Quorum服务器。如果ZK崩溃,自动failover将不可用。

  • What happens if ZooKeeper goes down?(如果ZK停了,发生什么?)
    如果ZK崩溃,将没有自动failover可以触发了。然而,HDFS将继续运行,不受影响。当ZK重启,HDFS将重新连接。

  • Can I designate one of my NameNodes as primary/preferred?(可以指派一个NameNode为首选active的吗?)
    不可以,当前不支持。无论哪个NameNode首先启动都将成为active的。你可以选择启动集群的顺序,先启动你首选的节点。

  • How can I initiate a manual failover when automatic failover is configured?(当自动failover配置了,如何进行一次手工failover?)
    即使配置了自动failover,也可以使用hdfs haadmin命令进行一次手工failover,执行是一样的。

HA HDFS升级、终止、回滚

在HDFS版本之间迁移,有时新版本软件可以很简单的安装和重启集群。然而,有时升级HDFS版本需要更改磁盘数据。在这种情况下,安装新版本软件后,必须使用HDFS的升级/终止/回滚过程进行处理。在HA环境中,这个过程更复杂;因为NN依赖的磁盘元数据是分布定义的。

执行HA升级

过程如下:

  1. 正常关闭所有NameNode,安装新版软件。
  2. 启动所有JN。请注意,重要的是,当执行升级、回滚、终止操作时,所有的JN都在运行。如果在运行这些操作时,任何JN停止,操作将会失败。
  3. 使用'-upgrade'启动一个NN。
  4. 在启动中,这个NN不能进入standby状态。而是要立即进入active状态,在它的本地存储目录执行升级,且在共享的编辑日志执行升级。
  5. 此时另一个NN没有与已经升级的NN同步。为了使这个NN同步和再次进行HA设置,需要在这个NameNode节点上,使用'-bootstrapStandby'参数重新引导NameNode启动。第二个NN使用'-upgrade'将报错。

注意,如果在终止或者回滚这个升级前,任何时候打算重启NNs,比如正常启动NNs,不要有任何特殊的启动参数。

终止HA升级

当NNs正在运行且一个是active的时,使用`hdfs dfsadmin -finalizeUpgrade'进行终止升级。此时active NN将执行共享日志终止,NN的本地存储目录包含之前FS状态将删除它的本地状态。

执行回滚

首先,两个NN将关闭。在NN上运行回滚开始的升级过程,在本地目录、共享日志、NFS/JNs执行回滚。
之后,这个NN启动,另一个NN使用`-bootstrapStandby'启动,使两个NN同步到回滚之前的文件系统状态。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,816评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,729评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,300评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,780评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,890评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,084评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,151评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,912评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,355评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,666评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,809评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,504评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,150评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,121评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,628评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,724评论 2 351

推荐阅读更多精彩内容