1. 理论篇
1.1 Keepalived 与 VRRP
如果网络中只部署一个路由器,那么这个路由器坏了,整个网络就会瘫痪。因此,在高可用设计下,一般都会部署一对路由器,一主一备。当主路由器坏了之后,就启用备用路由器。
虚拟路由冗余协议(Virtual Router Redundancy Protocol,简称VRRP)就是为以上情景设计的,它是由IETF提出的解决局域网中配置静态网关出现单点失效现象的路由协议。其原理如下:
- 设定一个虚拟IP(Virtual IP Address,VIP)
- 多个冗余设备(服务器、路由器等)在选举阶段确定谁将最终获得这个虚拟IP
- 在同一时刻只允许一个设备拥有该虚拟IP
- VRRP检测到主设备发生故障时,迅速将虚拟IPpiao'yi到备用设备
服务器高可用问题也可以用相同的方法解决,Keepalived就是这样一款产品,它同时实现了该协议的第二版和第三版。除此之外,Keepalived还基于IPVS(Linux IP Virtual Server)实现了负载均衡功能。
1.2 VRRP工作流程
- 给每个VRRP的服务器设置一个权重
- 权重最高的服务器将获得虚拟IP
- 确定主机以后,主机将定期给备机发送心跳消息
- 一旦主机出现故障,最高权重的备机将获得虚拟IP继续提供服务
- 如果运行在
抢占模式
,一旦有更高权重的服务器加入,就会自动获得虚拟IP,成为主机
注意:
- 协议规定主服务器权重为255,其他备机权重小于255。实际应用中,只要保证主服务器权重最高即可。
- 当主机接管虚拟IP时,会广播一个ARP消息,通知网络中的其他服务器与虚拟IP关联的MAC地址。这样就可以保证2层网络通信可以正常运行,同时可以加快虚拟IP的漂移。
1.3 数据包格式
通过VRRP的消息包,我们可以更好地了解VRRP是如何工作的。如上是通过Wireshark
获取的VRRP广播消息:
无论以太网还是IP网消息的目的地址都是组播地址,意味着消息将会发给网络上所有的主机
VRRP使用112端口,注意防火墙设置
网络中可能有多个VRRP实力,需要设置唯一的VRID
2. 实践篇
2.1 安装Keepalived
下面以ubuntu 18.04 LT为例:
# 通过snap安装
snap install keepalived --classic
# 查看版本
keepalived --version
# 检查运行状态
snap services
# 启动/停止服务
snap start keepalived
snap stop keepalived
2.2 配置Keepalived
Keepalived的配置文件位于/etc/keepalived/keepalived.conf
# 主机配置
vrrp_instance VRRP_1 { # 设定一个VRRP的实例,名称为V1
state MASTER # 设定服务器的初始状态为 MASTER
interface enp0s3 # 绑定网卡
virtual_router_id 60 # 网络中唯一的 VRRP 实例 ID
priority 200 # 权重
advert_int 1 # 每隔1秒广播消息
authentication {
auth_type PASS # 认证模式:文本密码
auth_pass 12345 # 密码
}
virtual_ipaddress {
192.168.1.222/24 # 虚拟IP
}
}
# 备机配置
vrrp_instance VRRP_1 {
state BACKUP
interface enp0s3
virtual_router_id 60
priority 100
advert_int 1
authentication {
auth_type PASS
auth_pass 12345
}
virtual_ipaddress {
192.168.1.222/24
}
}
配置好之后,重启一下keepalived服务,可以看到以下网络信息:
# 主机,拥有虚拟IP
ip -brief address show
lo UNKNOWN 127.0.0.1/8 ::1/128
enp0s3 UP 192.168.1.174/24 192.168.1.222/24 fe80::a00:27ff:fee6:cf3b/64
# 备机
ip -br a
lo UNKNOWN 127.0.0.1/8 ::1/128
enp0s3 UP 192.168.1.175/24 fe80::a00:27ff:fe0c:b917/64
如果我们将主机服务关闭,虚拟IP会自动切换到备机:
# 主机
snap stop keepalived.daemon
ip -br a
lo UNKNOWN 127.0.0.1/8 ::1/128
enp0s3 UP 192.168.1.174/24 fe80::a00:27ff:fee6:cf3b/64
# 备机
ip -br a
lo UNKNOWN 127.0.0.1/8 ::1/128
enp0s3 UP 192.168.1.175/24 192.168.1.222/24 fe80::a00:27ff:fe0c:b917/64
2.3 监控VRRP通信
# 主机
tcpdump proto 112
tcpdump: verbose output suppressed, use -v or -vv for full protocol decode
listening on enp0s3, link-type EN10MB (Ethernet), capture size 262144 bytes
05:05:00.615010 IP dev4 > vrrp.mcast.net: VRRPv2, Advertisement, vrid 60, prio 200, authtype simple, intvl 1s, length 20
05:05:01.615515 IP dev4 > vrrp.mcast.net: VRRPv2, Advertisement, vrid 60, prio 200, authtype simple, intvl 1s, length 20
05:05:02.616139 IP dev4 > vrrp.mcast.net: VRRPv2, Advertisement, vrid 60, prio 200, authtype simple, intvl 1s, length 20
05:05:03.616957 IP dev4 > vrrp.mcast.net: VRRPv2, Advertisement, vrid 60, prio 200, authtype simple, intvl 1s, length 20
05:05:04.617905 IP dev4 > vrrp.mcast.net: VRRPv2, Advertisement, vrid 60, prio 200, authtype simple, intvl 1s, length 20
05:05:05.618120 IP dev4 > vrrp.mcast.net: VRRPv2, Advertisement, vrid 60, prio 200, authtype simple, intvl 1s, length 20
^C
6 packets captured
6 packets received by filter
0 packets dropped by kernel
3. 进阶篇
默认情况下,Keepalived通过心跳监测主机故障。除此之外,Keepalived还提供更细粒度的故障监测方法。
3.1 监测进程
以监测 Apache服务为例:
vrrp_track_process track_apache { # 定义名为 track_apache 的进程监测指令
process httpd # Apache服务进程
weight 10 # 权重
}
vrrp_instance VRRP_1 {
state MASTER
interface enp0s3
virtual_router_id 60
priority 200 # 如果http运行正常,权重为 200 + 10 = 210,否则为200
advert_int 1
authentication {
auth_type PASS
auth_pass 12345
}
virtual_ipaddress {
192.168.1.222/24
}
track_process {
track_apache # 使用进程监测指令
}
}
3.2 检测文件
如果文件权重为0,那么文件中任何非0值,都认为是故障。
如果文件权重为非0值,那么权重为文件中的值乘以文件权重。
vrrp_track_file track_app_file { # 定义名为 track_app_file的文件监测指令
file /var/run/my_app/vrrp_track_file
}
vrrp_instance VRRP_1 {
state MASTER
interface enp0s3
virtual_router_id 60
priority 200 # 如果文件中的值为5,权重为 200 + 5 * 1 = 205
advert_int 1
authentication {
auth_type PASS
auth_pass 12345
}
virtual_ipaddress {
192.168.1.222/24
}
track_process {
track_app_file weight 1 # 使用文件监测指令,权重为1
}
}
3.3 检测网卡
假设一个负载均衡器有两个网卡,一个是对外的虚拟IP,一个是面向后端服务器。我们可以监测面向后端服务器的网络连接是否故障。
vrrp_instance VRRP_1 {
state MASTER
interface enp0s3
virtual_router_id 60
priority 200 # 如果网卡正常,权重为 200 + 5 = 205
advert_int 1
authentication {
auth_type PASS
auth_pass 12345
}
virtual_ipaddress {
192.168.1.222/24
}
track_interface {
enth0 weight 5 # 使用网卡监测指令,权重为5
}
}
3.4 检测脚本
Keepalived支持通过任意脚本来检测主机状态。以下例子中,如果脚本返回任何非0
值,则进入异常状态。
脚本示例/usr/local/bin/keepalived_check.sh
:
#!/bin/bash
/usr/bin/ping -c 1 -W 1 8.8.8.8 > /dev/null 2>&1
Keepalived配置:
vrrp_script keepalived_check { # 定义监测脚本
script "/usr/local/bin/keepalived_check.sh"
interval 1 # 脚本每隔1秒执行一次
timeout 5 # 脚本超时时间 5秒
rise 3 # 脚本成功返回3次,算健康
fall 3 # 脚本返回3次失败,算失败
}
vrrp_instance VI_1 {
state MASTER
interface eth0
virtual_router_id 51
priority 244
advert_int 1
authentication {
auth_type PASS
auth_pass 12345
}
virtual_ipaddress {
192.168.122.200/24
}
track_script {
keepalived_check #使用监测脚本
}
}
3.5 通知脚本
Keepalive支持触发通知脚本,通知脚本将收到4个参数:
-
VRRP
组或VRRP
实例 -
VRRP
组或VRRP
实例名称 -
VRRP
组或VRRP
实例将要进入的状态 - 权重
通知脚本示例:
# /usr/local/bin/keepalived_notify.sh
#!/bin/bash
echo "$1 $2 has transitioned to the $3 state with a priority of $4" > /var/run/keepalived_status
Keepalived配置:
# keepalived.conf
vrrp_script keepalived_check {
script "/usr/local/bin/keepalived_check.sh"
interval 1
timeout 5
rise 3
fall 3
}
vrrp_instance VI_1 {
state MASTER
interface eth0
virtual_router_id 51
priority 244
advert_int 1
authentication {
auth_type PASS
auth_pass 12345
}
virtual_ipaddress {
192.168.122.200/24
}
track_script {
keepalived_check
}
notify "/usr/local/bin/keepalived_notify.sh" # 启用通知脚本
}