Broker下线引起的partition的leader选举机制

Kafka的Broker下线一般有两种情况:

  • 一种是Broker的进程被kill,例如可能Broker所在主机宕机或者故障;
  • 一种就是正常停止Broker,通过发送ControlledShutdownRequest请求的方式,例如使用Kafka提供的脚本停止Broker或者其他引起ControlledShutdownRequest的场景。

在这两种情况下,如果某个topic的partition的leader恰好是这个下线的Broker,那么这个partition就要重新选举leader,这两种情况的选举算法是不同的,本文使用HDP-2.6.0.3基于kafka 0.10.x版本将阐述这两种选举机制的不同。

Partition的leader的5种选举机制

Partition选举leader有5种方式分别是ReassignedPartitionLeaderSelector,PreferredReplicaPartitionLeaderSelector,ControlledShutdownLeaderSelector,NoOpLeaderSelector,OfflinePartitionLeaderSelector。本文只介绍ControlledShutdownLeaderSelectorOfflinePartitionLeaderSelector

Broker的进程被kill

在ReplicaStateMachine中有一个BrokerChangeListener,负责监听ZooKeeper中/brokers/ids下节点的变化,当某个broker被kill的时候会导致这个路径下相应的节点被删除,从而触发BrokerChangeListener中的handleChildChange方法,其中关键代码如下

if(deadBrokerIds.size > 0)
                controller.onBrokerFailure(deadBrokerIdsSorted)

然后执行的是KafkaController.onBrokerFailure,其中关键代码如下

// trigger OnlinePartition state changes for offline or new partitions
partitionStateMachine.triggerOnlinePartitionStateChange()

从而进入PartitionStateMachine.handleStateChange方法,这时候传入的选举策略就是controller.offlinePartitionSelector,即OfflinePartitionLeaderSelector

handleStateChange(topicAndPartition.topic,topicAndPartition.partition, OnlinePartition, 
                            controller.offlinePartitionSelector,
                            (new CallbackBuilder).build)

所以在这种情况下,partition选举leader的策略就是OfflinePartitionLeaderSelector。下面是源码中对这种策略的解释:

Select the new leader, new isr and receiving replicas (for the LeaderAndIsrRequest):

  1. If at least one broker from the isr is alive, it picks a broker from the live isr as the new leader and the live
    isr as the new isr.
  2. Else, if unclean leader election for the topic is disabled, it throws a NoReplicaOnlineException.
  3. Else, it picks some alive broker from the assigned replica list as the new leader and the new isr.
  4. If no broker in the assigned replica list is alive, it throws a NoReplicaOnlineException.
    Replicas to receive LeaderAndIsr request = live assigned replicas
    Once the leader is successfully registered in zookeeper, it updates the allLeaders cache.

已经很清晰了,就不再翻译,而且代码逻辑不复杂,也可以直接阅读源码。这里需要强调一点,就是unclean.leader.election.enable这个参数,简单说,如果ISR为空,那么当这个参数为true的时候,可以在AR(Assigned Replicas)列表中选择一个作为leader。

正常停止Broker

在调用KafkaServer.shutdown方法的时候,会调用controlledShutdown方法,而这个方法中会执行如下代码

// send the controlled shutdown request
val requestHeader = networkClient.nextRequestHeader(ApiKeys.CONTROLLED_SHUTDOWN_KEY)

这个请求会触发KafkaApis中的

ApiKeys.CONTROLLED_SHUTDOWN_KEY => handleControlledShutdownRequest(request)

在这个方法里面会继续调用

val partitionsRemaining = controller.shutdownBroker(controlledShutdownRequest.brokerId)

而在KafkaController.shutdownBroker中会调用如下方法,传入的选举leader的策略就是ControlledShutdownLeaderSelector

partitionStateMachine.handleStateChanges(Set(topicAndPartition), OnlinePartition,
                    controlledShutdownPartitionLeaderSelector)

下面是源码中对这种策略的解释:

New leader = replica in isr that's not being shutdown;
New isr = current isr - shutdown replica;
Replicas to receive LeaderAndIsr request = live assigned replicas

从这个解释或者源码中可以看到,这个策略比较简单,就是选择在ISR中没有下线的第一个Broker作为这partition的新leader。

验证

  • 通过页面Ambari页面正常停止Broker 1001,前后的对比
/usr/hdp/2.6.0.3-8/kafka/bin/kafka-topics.sh --describe --zookeeper hostA:2181 --topic bar
Topic:bar       PartitionCount:3        ReplicationFactor:3     Configs:
        Topic: bar      Partition: 0    Leader: 1001    Replicas: 1001,1003,1002        Isr: 1003,1002,1001
        Topic: bar      Partition: 1    Leader: 1002    Replicas: 1002,1001,1003        Isr: 1002,1003,1001
        Topic: bar      Partition: 2    Leader: 1003    Replicas: 1003,1002,1001        Isr: 1003,1002,1001
/usr/hdp/2.6.0.3-8/kafka/bin/kafka-topics.sh --describe --zookeeper hostA:2181 --topic bar
Topic:bar       PartitionCount:3        ReplicationFactor:3     Configs:
        Topic: bar      Partition: 0    Leader: 1003    Replicas: 1001,1003,1002        Isr: 1003,1002
        Topic: bar      Partition: 1    Leader: 1002    Replicas: 1002,1001,1003        Isr: 1002,1003
        Topic: bar      Partition: 2    Leader: 1003    Replicas: 1003,1002,1001        Isr: 1003,1002

可以在Kafka Controller日志中找到如下打印

DEBUG [ControlledShutdownLeaderSelector]: Partition [bar,0] : current leader = 1001, new leader = 1003 (kafka.controller.ControlledShutdownLeaderSelector)
  • 通过kill Broker的进程停止Broker 1002,前后的对比
/usr/hdp/2.6.0.3-8/kafka/bin/kafka-topics.sh --describe --zookeeper hostA:2181 --topic bar
Topic:bar       PartitionCount:3        ReplicationFactor:3     Configs:
        Topic: bar      Partition: 0    Leader: 1003    Replicas: 1001,1003,1002        Isr: 1003,1001
        Topic: bar      Partition: 1    Leader: 1002    Replicas: 1002,1001,1003        Isr: 1002,1003,1001
        Topic: bar      Partition: 2    Leader: 1003    Replicas: 1003,1002,1001        Isr: 1003,1001
/usr/hdp/2.6.0.3-8/kafka/bin/kafka-topics.sh --describe --zookeeper hostA:2181 --topic bar
Topic:bar       PartitionCount:3        ReplicationFactor:3     Configs:
        Topic: bar      Partition: 0    Leader: 1001    Replicas: 1001,1003,1002        Isr: 1003,1001
        Topic: bar      Partition: 1    Leader: 1001    Replicas: 1002,1001,1003        Isr: 1003,1001
        Topic: bar      Partition: 2    Leader: 1003    Replicas: 1003,1002,1001        Isr: 1003,1001

可以在Kafka Controller日志中找到如下打印

INFO [OfflinePartitionLeaderSelector]: Selected new leader and ISR {"leader":1001,"leader_epoch":3,"isr":[1003,1001]} for offline partition [bar,1] (kafka.controller.OfflinePartitionLeaderSelector)

总结

本文只是分析了在Broker下线的两种场景中,partition重新选举leader的两种机制。当然在实际生产环境中会遇到更多更复杂的情况,所以在遇到partition找不到leader的时候需要根据Controller日志分析当前场景下,使用的是哪种选举机制才能找到问题的根因。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,377评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,390评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,967评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,344评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,441评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,492评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,497评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,274评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,732评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,008评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,184评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,837评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,520评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,156评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,407评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,056评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,074评论 2 352