主从复制基础 (!=同步,异步的工作模式)

1. 主从复制介绍(Master-Slave Replication)

两台以上的数据库实例,通过二进制日志实现数据复制关系.

2. 主从复制作用

辅助数据备份.比较擅长处理数据库的物理损坏.
架构演变: 高可用,读写分离,分布式...

3. 主从复制前提 (Classic Replication搭建过程)

(1) 两台以上数据库实例,需要不同的server_id(在主从复制环境当中或者关系当中来区分不同节点用的) ,server_uuid（每次实例初始化的时候会在数据目录下生成一个outo.cnf的文件，这个文件一般情况下是不同的，除非是克隆的虚拟机）保持不同
(2) 主库需要开启二进制日志(binlog)（在业务上必须开启（很重要））,专用复制用户
(3) 进行主库数据的备份,恢复到从库.
(4) 从库:change master to , 通知从库,主库:user,password (专用的),ip,port,复制的起点.
(5) 从库:start slave; 开启专用的复制线程

4. 主从复制搭建

4.1 节点准备及各项检查

systemctl start mysqld3307
systemctl start mysqld3308
mysql -S /tmp/mysql3307.sock  -e "select @@server_id"
mysql -S /tmp/mysql3308.sock  -e "select @@server_id"
mysql -S /tmp/mysql3307.sock  -e "select @@log_bin"（查看主库是否开启二进制日志）
mysql -S /tmp/mysql3307.sock  -e "select @@server_uuid"
mysql -S /tmp/mysql3308.sock  -e "select @@server_uuid"

4.2 binlog日志检查及用户准备

mkdir -p /data/mysql/binlog_3307
chown -R mysql.mysql /data 
vim /data/mysql/my3307.cnf 
添加以下行:
log_bin=/data/mysql/binlog_3307/mysql-bin 

重启                                        
systemctl restart mysqld3307

开启专用用户
mysql -S /tmp/mysql3307.sock  -e "grant replication slave on *.* to repl@'10.0.0.%' identified by '123'"

4.3 备份主库数据,恢复到从库,并记录位置点.

mysqldump -S /tmp/mysql3307.sock -A --master-data=2 --single-transaction -R -E --triggers >/tmp/full.sql

-- CHANGE MASTER TO MASTER_LOG_FILE='mysql-bin.000001', MASTER_LOG_POS=444;（记录了二进制日志文件位置点）

mysql -S /tmp/mysql3308.sock < /tmp/full.sql

4.4 从库执行 change master to（告诉从库主库的一些信息）

CHANGE MASTER TO
  MASTER_HOST='10.0.0.51',
  MASTER_USER='repl',
  MASTER_PASSWORD='123',
  MASTER_PORT=3307,
  MASTER_LOG_FILE='mysql-bin.000001',
  MASTER_LOG_POS=444,
  MASTER_CONNECT_RETRY=10;

4.5 开启复制线程(IO,SQL)

start slave;
mysql -S /tmp/mysql3308.sock -e "show slave status\G"|grep Running:

4.6 简单诊断问题思路:

(1) 线程 
IO 
SQL
(2) 看具体报错 
last_xx_error 

(3) 处理 
stop slave 
change master to 
start slave

4.7 主从复制原理（工作流程）

文件:  
    主库: binlog 
    从库: relaylog,master.info,relay-log.info 
线程:
    主库: binlog dump thread(show processlist;)
    从库: IO  , SQL

image.png

1.从库执行，change master to命令:ip port user password binlog起点
2.信息被转存到master.info文件（专用表）中
3.从库：start slave命令，启动IO，SQL线程
4.IO开始工作，拿着master.info中的连接信息，链接主库，验证通过，主库开启dump线程
5.IO按照master.info中记录的binlog位置点信息，像主库的DUMP线程请求新的日志
6.主库DUMP线程返回新的日志event，返回给从库
7.从库IO线程接收binlog，并重新更新master.info信息
8.从库IO将接收到的binlog记录到relay-log中
9.从库SQL线程读取relay.info信息，获取到上次执行到的位置点，继续向后回放最新relaylog日志，并重新跟新relay.info信息
10.小细节：
1.回放完成的relaylog，会自动进行清理
2.主库一旦有新日志变化，dump线程会立即通知从库
3.5.6以后master.info和relay.info可以储存到表中，8.0默认存储到表中
4.节点重启，在日志没损坏的前提下，主从会自动链接

4.8 主从复制的监控方式

show slave status \G
(1) 主库连接信息 
Master_Host: 10.0.0.51
Master_User: repl
Master_Port: 3307
Master_Log_File: mysql-bin.000001
Read_Master_Log_Pos: 444


(2) 从库中继日志回放位置点
Relay_Log_File: db01-relay-bin.000002
Relay_Log_Pos: 320
Exec_Master_Log_Pos: 444
Seconds_Behind_Master: 0

说明: 主要是为了定位主从延时问题.


(3) 从库复制线程状态
Slave_IO_Running: Yes
Slave_SQL_Running: Yes

Last_IO_Errno: 0
Last_IO_Error: 
Last_SQL_Errno: 0
Last_SQL_Error:     
    
说明: 必须是yes , 但是yes不代表完全没问题.     
    
    
(4) 过滤复制相关状态
Replicate_Do_DB: 
Replicate_Ignore_DB: 
Replicate_Do_Table: 
Replicate_Ignore_Table: 
Replicate_Wild_Do_Table: 
Replicate_Wild_Ignore_Table: 


(5) 延时从库
SQL_Delay: 0
SQL_Remaining_Delay: NULL

说明: 作用是用来处理逻辑故障.


(6) GTID复制有关:
Retrieved_Gtid_Set: 
Executed_Gtid_Set:

4.9 主从复制故障分析及处理

(1) 线程为什么不工作
IO :  
    1. 连接主库
    网络: ip , port , 防火墙 ,user,password  , 网络不通.
    解决方案: 保证以上信息正确可用.
    stop slave 
    change master to 
    start slave
    
    2. 请求日志
    日志位置点指定错误(搭建过程问题)
    binlog损坏,误删等.
    例如: reset master;
    保险的处理方法:重新备份恢复,重新构建主从
        
    3. 存储日志
    relaylog 损坏,丢失,不连续.


SQL:
1. 回放relaylog  ----> SQL ----> SQL线程执行SQL语句为什么失败?
(1) 创建对象失败,删除修改的对象不存在.
从库被写入了.
解决方案: 
方法一：
stop slave; 
set global sql_slave_skip_counter = 1;
#将同步指针向下移动一个，如果多次不同步，可以重复操作。
start slave;
方法二：
/etc/my.cnf
slave-skip-errors = 1032,1062,1007
常见错误代码:
1007:对象已存在
1032:无法执行DML
1062:主键冲突,或约束冲突

终极大招: 
从库只读
read_only=on
super_read_only=on   
或者,配合中间件.        
                 
          
(2) 版本不一致,SQL_mode不一致,配置不一致.
解决方案: 尽量统一. 将高版本的配置降低为低版本配置.


(3) DML语句执行失败
异步复制会导致的问题,比如:表不存在.
人工校验主从的数据不一致原因,把有问题的操作给补上.
 

(4) 约束冲突,例如: 主键自增列冲突
双主模式下,会导致主键冲突.
主库宕机,8.0以前自增列是没有持久化的.
 
扩展: 
pt-checksum
pt-sync 
pt-heartbeat

======================================

主从复制进阶

1. 延时从库企业级应用

1.1 场景介绍

逻辑损坏: 
总数据量200G,误删除1个2G的库,有备份和日志.

1.2 配置

SQL线程延时:
数据已经写入relaylog中了,SQL线程"慢点"运行
一般企业建议3-6小时,具体看公司运维人员对于故障的反应时间
mysql>stop slave;
mysql>CHANGE MASTER TO MASTER_DELAY = 300;
mysql>start slave;



mysql> show slave status \G
SQL_Delay: 300
SQL_Remaining_Delay: NULL

1.3 故障模拟

主库:
create database delaydb charset utf8mb4;
use delaydb;
create table t1 (id int);
begin;
insert into t1 values(1);
commit;
begin;
insert into t1 values(2);
commit;
begin;
insert into t1 values(3);
commit;
begin;
insert into t1 values(4);
commit;
begin;
insert into t1 values(5);
commit;
drop database delaydb;


恢复思路(延时从库): 
1. 监控到故障,第一时间停掉从库SQL线程
2. 手工模拟SQL线程回放relaylog,停止在drop之前
   起点:读取relay.info信息
   终点:drop之前
3. 恢复业务

演练: 
从库 : 
1. 停止SQL线程
mysql> stop slave sql_thread;
2. 截取relaylog日志 
起点:
Relay_Log_File: db01-relay-bin.000002
Relay_Log_Pos: 653
终点: 
db01-relay-bin.000002 | 2366 | Query          |         7 |        4772 | drop database delaydb

2. 过滤复制的企业级应用

2.1 配置普通复制环境

systemctl start mysqld3309
mysqldump -S /tmp/mysql3307.sock -A --master-data=2 --single-transaction -R -E --triggers >/tmp/full.sql
grep "\-\- CHANGE MASTER TO" /tmp/full.sql
-- CHANGE MASTER TO MASTER_LOG_FILE='mysql-bin.000002', MASTER_LOG_POS=4772;
mysql -S /tmp/mysql3309.sock < /tmp/full.sql
mysql -S /tmp/mysql3309.sock -e "CHANGE MASTER TO MASTER_HOST='10.0.0.51',MASTER_USER='repl',MASTER_PASSWORD='123',MASTER_PORT=3307,MASTER_LOG_FILE='mysql-bin.000002',MASTER_LOG_POS=4772,MASTER_CONNECT_RETRY=10;start slave;"
mysql -S /tmp/mysql3309.sock -e "show slave status\G"|grep Running:

2.2 开启过滤复制功能

库级别:
Replicate_Do_DB: world
Replicate_Ignore_DB: 

表级别:
Replicate_Do_Table: world.t1 
Replicate_Ignore_Table: 

模糊过滤:
Replicate_Wild_Do_Table: world.t*
Replicate_Wild_Ignore_Table:

2.3 库级别白名单演示

[root@db01 ~]# vim /data/mysql/my3309.cnf 
replicate_do_db=oldguo
replicate_do_db=oldboy
[root@db01 ~]# systemctl restart mysqld3309

3. 半同步复制介绍

ACK 
timeout

4. 基于GTID的复制

## GTID复制配置过程：
### 清理环境
pkill mysqld
\rm -rf /data/*
mkdir -p /data/mysql/data 
mkdir -p /data/binlog
chown -R mysql.mysql /data/*

### 准备配置文件
### 主库db01：
cat > /etc/my.cnf <<EOF
[mysqld]
basedir=/usr/local/mysql57/
datadir=/data/mysql/data
socket=/tmp/mysql.sock
server_id=51
port=3306
secure-file-priv=/tmp
autocommit=0
log_bin=/data/binlog/mysql-bin
binlog_format=row
gtid-mode=on
enforce-gtid-consistency=true
log-slave-updates=1
[mysql]
prompt=db01 [\\d]>
EOF
### 从库
slave1(db02)：
cat > /etc/my.cnf <<EOF
[mysqld]
basedir=/usr/local/mysql57
datadir=/data/mysql/data
socket=/tmp/mysql.sock
server_id=52
port=3306
secure-file-priv=/tmp
autocommit=0
log_bin=/data/binlog/mysql-bin
binlog_format=row
gtid-mode=on
enforce-gtid-consistency=true
log-slave-updates=1
[mysql]
prompt=db02 [\\d]>
EOF

slave2(db03)：
cat > /etc/my.cnf <<EOF
[mysqld]
basedir=/usr/local/mysql57
datadir=/data/mysql/data
socket=/tmp/mysql.sock
server_id=53
port=3306
secure-file-priv=/tmp
autocommit=0
log_bin=/data/binlog/mysql-bin
binlog_format=row
gtid-mode=on
enforce-gtid-consistency=true
log-slave-updates=1
[mysql]
prompt=db03 [\\d]>
EOF

### 初始化数据
mysqld --initialize-insecure --user=mysql --basedir=/usr/local/mysql57  --datadir=/data/mysql/data 

### 启动数据库
/etc/init.d/mysqld start

### 构建主从：
### master:51
### slave:52,53



# 51:
grant replication slave  on *.* to repl@'10.0.0.%' identified by '123';

# 52\53:
change master to 
master_host='10.0.0.51',
master_user='repl',
master_password='123' ,
MASTER_AUTO_POSITION=1;

start slave;

作者：wwwoldguocom
链接：https://www.jianshu.com/p/82bc8ed98e7f
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

mysql主从