Heartbeat 裂脑

什么是裂脑

由于某些原因,导致两台高可用服务器之间在指定时间内,无法互相检测到对方心跳而各自启动故障转移功能,取得了资源及服务的所有权,而此时的两台高可用服务器都还活着并在正常运行,这样就会导致同一个IP或服务在两端同时启动而发生冲突的严重问题,最严重的是两台主机占用同一个VIP地址,当用户写入数据时可能会分别写入到两端,这样可能会导致服务器两端的数据不一致或造成数据丢失,这种情况就被称为裂脑,也有人称其为分区集群或大脑垂直分割,英文为 split brain。

导致裂脑发生的多种原因

一般来说,裂脑的发生有以下几个原因:

  • 1)高可用服务器之间心跳线链路故障,导致无法正常通信
    • 心跳线坏了(包括断了、老化)
    • 网卡及相关驱动坏了,IP 配置及冲突问题(网卡直连)
    • 心跳线间连接的设备故障(网卡及交换机)
    • 仲裁的机器出问题(仲裁的方案)
  • 2)高可用服务器上开启了如 iptables 防火墙阻挡了心跳消息传输
  • 3)高可用服务器上心跳网卡地址等信息配置不正确,导致发送心跳失败
  • 4)其它服务配置不当等原因,如心跳方式不同,心跳广播冲突、软件BUG等

提示: 另外的高可用软件 keepalived 配置里如 virtual_router_id 参数,两端配置不一致也会导致裂脑问题发生

防止裂脑发生的几种方法

发生裂脑时,对业务的影响是及其严重的,有时甚至是致命的,如:两台高可用服务器之间发生裂脑,导致互相争用同一 IP 资源,就如同我们在局域网内常见的 IP 地址冲突一样,两个机器就会有一个或者两个都不正常,影响用户正常访问服务器。如果是应用在数据库或者存储服务这种极重要的高可用上,那就可能会导致用户发布的数据间断的写在两台不同服务器上的恶果,最终数据恢复极困难或难以恢复(当然,有NAS等公共存储的硬件也许会好一些)

实际生产环境中,我们可以从以下几个方面来防止裂脑问题的发生:

  • 同时使用串行电缆和以太网电缆连接,同时用两条心跳线路,这样一条线路坏了,另一个还是好的,依然能传送心跳消息。(网卡设备和网线设备)

  • 当检测到裂脑时强行关闭一个心跳节点(服务器)。(这个功能需特殊硬件设备支持,如 Stonith、fence)。相当于程序上备节点发现心跳线故障,发送关机命令到主节点(一般银行会使用这种方式)

  • 做好对裂脑的监控报警(如邮件及手机短信等,值班),在问题发生时人为第一时间介入仲裁,降低损失。百度的报警监控有上行和下行(就是可交互的),和人工交互的过程。当然,在实施高可用方案时,要根据业务实际需求确定是否能容忍这样的损失。对于一般的网站常规业务,这个损失是可控的。

  • 启用磁盘锁,正在服务的一方锁住共享磁盘,“裂脑”发生时,让对方完全“抢不走”共享磁盘资源。但使用锁磁盘也会有一个不小的问题,如果占用共享磁盘的一方不主动“解锁”,另一方就永远得不到共享磁盘。现实中假如服务节点突然死机或崩溃,就不可能执行解锁命令,备节点也就接管不了共享资源和应用服务。于是有人在 HA 中设计了“智能”锁。即正在服务的一方只在发现心跳线全部断开(察觉不到对端)的情况下才启用磁盘锁,平时就不上锁。此功能适合共享场景。

  • 报警报在服务器接管之前,给人员处理留足够时间。例如:1分钟内报警,但是服务器此时没有接管,而是5分钟在进行接管。接管时间较长。数据不会丢失,导致用户无法写数据。

  • 报警后不直接自动服务器接管,而是由人为人员控制接管

  • 增加仲裁机制,确定谁该获得资源。下面有几个参考的思路

    • 1)加一个仲裁机制,例如设置参考IP(如网关IP),当心跳线完全断开时,2个节点都各自ping一下参考IP,不通则表明断点就出在本端,不仅心跳线、还有对外服务的本地网络链路断了,这样就主动放弃竞争,让能够ping通参考IP的一端去接管服务。ping不通参考IP的一方可以自我重启,以彻底释放有可能还占用着的那些共享资源(heartbeat也有此功能)
    • 2)通过第三方软件仲裁谁该获得资源,这个阿里有类似的软件应用

小结:如何开发程序判断裂脑

  • 1)只要备节点出现 VIP 就报警(a、主节点机器宕机了,备节点机器接管了 b、主节点机器没宕,裂脑了),不管哪种情况都需要人工查看
  • 2)严谨判断,备机出现VIP,并且主机及服务还活着,裂脑了(依然报警)

仲裁机制

仲裁机制就是通过第三方来控制HA 主节点和备节点的电源,防止裂脑情况发生,相当于法院的角色

小结:
在HA节点之间无法通信(心跳出现问题)的时候做以下操作:

  • 1)各自ping网关,ping不通则自己关机
  • 2)主备和仲裁设备连接,出问题的时候,把各自的存活状态写到仲裁设备里,由仲裁设备控制主备服务器的电源

Stonith介绍

Stonith 是“shoot the other node in the head” 的首字母简写,它是 Heartbeat 软件包的一个组件,它允许使用一个远程或“智能的”连接到健康服务器的电源设备自动重启失效服务器的电源,Stonith 设备可以关闭电源并响应软件命令,运行Heartbeat 的服务器可以通过串口线或网线向 Stonith 设备发送命令,它控制高可用服务器对其他服务器的电力供应,也就是主服务器可以复位备用服务器的电源,备用服务器也可以复位主服务器的电源。

注意: 尽管理论上连接到远程或“智能的”循环电源系统电力设备的数量是没有限制的,但大多数 Stonith 实现只使用两台服务器,因为双服务器 Stonith 配置是最简单的,最容易理解,它能够长时间运行且不会降低系统的可靠性和高可用性。

Stonith 事件触发工作步骤
  • 1)当备用服务器获取不到心跳信号时,Stonith 事件开始。这并不一定意味着主服务器没有发送心跳,心跳可能有多种原因而没有抵达备用服务器,所以建议使用至少两条物理路径传输心跳以避免出现假象的原因
  • 2)备用服务器发出一个 Stonith 复位命令到 Stonith 设备
  • 3)Stonith 设备关闭主服务器的电力供应
  • 4)一经切断主服务器的电源,它就不能再访问集群资源,也不能再为客户端提供资源,保证客户端计算机不能访问主服务器上的资源,排除可能发生的头脑分裂状态
  • 5)然后备用服务器获得主服务器的资源,Heartbeat 用 start 参数运行资源脚本,并执行ARP欺骗广播以便客户端计算机发送他们的请求到它的网络接口上
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,313评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,369评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,916评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,333评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,425评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,481评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,491评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,268评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,719评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,004评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,179评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,832评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,510评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,153评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,402评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,045评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,071评论 2 352

推荐阅读更多精彩内容