1、背景
MGR(MySQL Group Replication)是MySQL官方在5.7.17版本引进的一个数据库高可用与高扩展的解决方案,以插件形式提供,实现了分布式下数据的最终已执行,总结MGR的特点如下:
- 高一致性:基于分布式paxos协议实现组复制,保证数据一致性
- 高容错性:自动检测机制,只要不是大多数节点都宕机就可以继续工作,内置防脑裂保护机制;
- 高扩展性:节点的添加与移除会自动更新组成员信息,新节点加入后,自动从其他节点同步增量数据,知道与其他节点数据一致;
- 高灵活性:提供单住和多主模式,单主模式在主库宕机后能够自动选主,所有写入都在主节点进行,多主模式支持多节点写入。
2、环境
操作系统:CentOS 7
数据库版本:5.7.22
主机1:192.168.106.203
主机2:192.168.106.204
主机3:192.168.106.205
3、搭建步骤
3.1 数据库安装部署步骤,略
3.2 分别将主机的ip做映射
由于在集群中的merber_host中的值不能相同,所以需要做映射,当然不做也可以,后面提到如何设置
3.3 开始搭建集群节点一(主机1)
3.3.1 修改第一个节点的配置文件,内容添加如下:
# replication param
# server-id,组内唯一ID,不可重复,一般配置为IP的后几位
server_id = 203
# 开启二进制日志
log_bin = mysql-bin
# 开启gtid模式
gtid_mode = on
enforce_gtid_consistency = 1
# 开启存储从主库接收来的二进制日志
log_slave_updates = 1
# 设置二进制日志格式为row
binlog_format = row
# group replication param
#复制元数据存入系统表
master_info_repository = table
#复制元数据存入系统表
relay_log_info_repository = table
#禁用二进制日志时间校验和
binlog_checksum = none
#server必须为每个事物
transaction_write_set_extraction=XXHASH64
# 复制组的名字,可以随意起,但一定要遵循gtid的格式
loose-group_replication_group_name='aaaaaaaa-aaaa-aaaa-aaaa-aaaaaaaaaaaa'
#插件在server启动时是否自动启动组复制,如果不在配置文件中配置可在后面动态配置
loose-group_replication_start_on_boot = off
#使用这个地址接收来自组中其他成员的传入连接,一般为本机地址
loose-group_replication_local_address = '192.168.106.203:33061'
#组成员
loose-group_replication_group_seeds = '192.168.106.203:33061,192.168.106.204:33061,192.168.106.205:33061'
#是否为Group Replication的引导节点,集群中第一个节点需要设置为ON来启动Group Replication,如果不在配置文件中配置可在后面动态配置
loose-group_replication_bootstrap_group = off
# 一般配置为本机地址,也就是文中一开头说的如果不做映射那么要配置这个
report_host = 192.168.106.203
report_port=3306
# 是否只有一个主可写,设置为ON时,其它节点不可写,这个此处没设置
group_replication_single_primary_mode = ON
3.3.2 重启数据库服务
# systemctl restart mysqld
3.3.3 登录到数据库
mysql > mysql -uroot -pyourpassword
3.3.4 关闭二进制日志记录功能
mysql > set sql_log_bin=0;
3.3.5 创建一个用于复制的用户,不建议用root用户
mysql > grant replication slave on *.* to rpl_user@'%' identified by 'rpl_pass';
mysql > flush privileges;
3.3.6 开启二进制日志记录功能
mysql > set sql_sql_log_bin = 1;
3.3.7 设置使用组复制的用户
mysql > change master to master_user='rpl_user',master_password='rpl_pass' for channel 'group_replication_recovery';
3.3.8 安装组复制插件
mysql > install PLUGIN group_replication SONAME 'group_replication.so';
3.3.9 开启插件自动引用组功能
mysql > set global group_replication_bootstrap_group = ON;
3.3.10 开启组复制
mysql > start group_replication;
3.3.11 关闭插件自动引用组功能
mysql > set global group_replication_bootstrap_group = OFF;
3.3.12 查看组内节点和节点状态
查看组内成员
.mysql > select * from performance_schema.replication_group_members;
如果member_state显示为online则为成功
具体说明见另附
查看节点状态
select * from performance_schema.replication_group_member_stats \G;
3.4 搭建第二个节点(主机:192.168.106.204)
3.4.1 修改配置文件,
除了一下三项之外其他配置与节点一的一致(当然部分配置可以根据实际情况调整)
server_id = 203
loose-group_replication_local_address = '192.168.106.204:33061'
report_host = 192.168.106.204
3.4.2 重启数据库服务
# systemctl restart mysqld
3.4.3 登录到数据库
mysql > mysql -uroot -pyourpassword
3.4.4 关闭二进制日志记录功能
mysql > set sql_log_bin=0;
3.4.5 创建一个用于复制的用户,不建议用root用户
mysql > grant replication slave on *.* to rpl_user@'%' identified by 'rpl_pass';
mysql > flush privileges;
3.4.6 开启二进制日志记录功能
mysql > set sql_sql_log_bin = 1;
3.4.7 设置使用组复制的用户
mysql > change master to master_user='rpl_user',master_password='rpl_pass' for channel 'group_replication_recovery';
3.4.8 安装组复制插件
mysql > install PLUGIN group_replication SONAME 'group_replication.so';
3.4.9 除了第一个节点,其他节点都需要执行这命令
mysql > set global group_replication_allow_local_disjoint_gtids_join = ON;
3.4.10 开启组复制
mysql > start group_replication;
3.4.11 查看成员信息:
mysql > select * from performance_schema.replication_group_members;
3.4.12 查看节点信息:
mysql > select * from performance_schema.replication_group_member_stats;
3.5 节点三的配置方式与节点二的配置方式相同
3.5.1 查看成员信息:
mysql > select * from performance_schema.replication_group_members;
3.5.2 查看节点信息:
mysql > select * from performance_schema.replication_group_member_stats \G
测试步骤:
在主库上创建一个库,然后创建表,在两个从库上查询数据是否同步?
两个从库只能执行查询操作?
手动关闭主库,确认两个从库其中一个是否会变成主库?而且是MEMBER_ID第一个字母按优先级排列的接管主库?
常用命令:
查看成员信息:
mysql > select * from performance_schema.replication_group_members;
查看节点信息:
mysql > select * from performance_schema.replication_group_member_stats \G
查看主节点:
mysql > select variable_value from performance_schema.global_status where variable_name='group_replication_primary_member';
查看主节点方式2:
select @@read_only;
正常情况下且是在单主的情况下,从节点都是不可写的,即该参数的值为1,而主节点的值为0
4、多主模式切换
切换为多主
MGR切换模式需要重新启动组复制,因些需要在所有节点上先关闭组复制,设置 group_replication_single_primary_mode=OFF 等参数,再启动组复制。
# 停止组复制(所有节点执行):
mysql> stop group_replication;
mysql> set global group_replication_single_primary_mode=OFF;
mysql> set global group_replication_enforce_update_everywhere_checks=ON;
# 随便选择某个节点执行
mysql> SET GLOBAL group_replication_bootstrap_group=ON;
mysql> START GROUP_REPLICATION;
mysql> SET GLOBAL group_replication_bootstrap_group=OFF;
# 其他节点执行
mysql> START GROUP_REPLICATION;
# 查看组信息,所有节点的 MEMBER_ROLE 都为 PRIMARY
mysql> SELECT * FROM performance_schema.replication_group_members;
切换回单主
# 所有节点执行
mysql> stop group_replication;
mysql> set global group_replication_enforce_update_everywhere_checks=OFF;
mysql> set global group_replication_single_primary_mode=ON;
# 主节点(如主机1)执行
SET GLOBAL group_replication_bootstrap_group=ON;
START GROUP_REPLICATION;
SET GLOBAL group_replication_bootstrap_group=OFF;
# 从节点(主机2、主机3)执行
START GROUP_REPLICATION;
# 查看MGR组信息
mysql> SELECT * FROM performance_schema.replication_group_members;
5、搭建时遇到的问题
5.1 在执行change master的时候报错
ERROR 3077 (HY000): To have multiple channels, repository cannot be of type FILE; Please check the repository configuration and convert them to TABLE.
解决方法:
从库需要master-info-repository、relay-log-info-repository设置为table
5.2 如果节点曾经做过从库,那么在开启组复制的时候会报错,且日志中会出现以下错误:
[ERROR] Plugin group_replication reported: 'Can't start group replication on secondary member with single primary-mode while asynchronous replication channels are running
解决方法:
1、停止该节点的主从:stop slave;
2、建议刷新日志(生产环境慎用),reset master;reset slave;
6、附
6.1 MySQL Group Replication 节点状态:
CHANNEL_NAME : 显示的值永远为group_replication_applier
MEMBER_ID : 节点serer_uuid
MEMBER_PORT : 节点服务端口,取值为server_port指定的端口
MEMBER_HOST : 如果没有配置report_host选项,那么取值为机器的hostname,可以通过report_host配置指定具体的IP
MEMBER_STATE : 节点状态
MEMBER_STATE字段显示当前节点的状态,根据官方文档,取值和介绍如下所示:
取值 | 解释 | 状态是否在集群内同步 |
---|---|---|
ONLINE | 表示该节点可正常提供服务 | YES |
RECOVERING | 表示当前节点正在从其他节点恢复数据 | YES |
OFFLINE | 表示GR插件已经加载,但是该节点不属于任何一个GR组 | NO |
ERROR | 表示节点在recovery阶段出现错误或者从其他节点同步状态中出现错误 | NO |
UNREACHABLE | 节点处于不可达状态,无法与之发生网络通讯 | NO |
从上表可以知道,只有ONLINE和RECOVERING两种状态会在集群中得到同步。这个状态同步是指状态在所有节点上面查询均能保持一致的意思。至于OFFLINE,ERROR和UNREABLE,做以下说明:
只有在当前OFFLINE节点查询replication_group_members表才能得到OFFLINE状态,在其他节点上查询replication_group_members表,则一般没有该节点的状态(很好理解,因为OFFLINE节点已经不属于这个GR组了)
只有在当前ERROR节点查询replication_group_members表才能得到ERROR状态,同上面的OFFLINE,在其他节点上查询也看不到该节点
假设节点A与B网络通讯失败,那么在节点A上查询replication_group_members表,有可能得到B的状态为UNREACHABLE