控制源表扫描行数和加锁范围小,insert …select 实现。
避免对源表加读锁,先将数据写到外部文件,写回目标表。两种常用方法。
db1.t,插入 1000 行,相同结构表 db2.t。
db1.t 里 a>900 导出来,插入db2.t
一、mysqldump 方法
1.1mysqldump 命令
将数据导出成INSERT 语句。输出到临时 t.sql 包含图 1 INSERT 语句:
mysqldump -h$host -P$port -u$user --add-locks=0 --no-create-info --single-transaction --set-gtid-purged=OFF db1 t --where="a>900" --result-file=/client_tmp/t.sql
1. –single-transaction :db1.t 不需加表锁,用 START TRANSACTION WITH CONSISTENT SNAPSHOT 的方法;
2. –add-locks = 0,输出文件结果,不增加" LOCK TABLES t WRITE"
3. –no-create-info :不需导出表结构;
4. –set-gtid-purged=off :不输出跟 GTID 相关信息;
5. –result-file 输出文件路径, client :生成的文件在客户端。
一条 INSERT 包含多个 value 对,后续写数据更快。
1.2 执行流程
INSERT 放到 db2 库执行:mysql -h127.0.0.1 -P13000 -uroot db2 -e "source /client_tmp/t.sql" //source :并不是SQL 语句,一个客户端命令。
打开文件,读一条条SQL(默认分号结尾),发送服务端执行。
执行INSERT 语句(不是“source t.sql")。慢查询日志(slow log),binlog,记录都是INSERT 语句。
ps:mysqldump 命令加–skip-extended-insert(只插入一行)。
二、导出 CSV 文件
结果导出成.csv 文件:select * from db1.t where a>900 into outfile '/server_tmp/t.csv';
2.1 注意事项
1. 保存服务端。客户端和服务端在同一机器,临时目录(客户端)才生成 t.csv。
2. into outfile 指定生成位置(/server_tmp/),受参数secure_file_priv 限制:
(1)=empty,不限制生成位置,不安全;
(2)=表示路径的字符串,只放指定目录,或它子目录;
(3)=NULL,禁止select …into outfile
3. 不会覆盖文件,确保/server_tmp/t.csv 不存在,否则同名报错。
4. 数据行对文本文件行。类似换行符、制表符这类符号,前面跟“\”转义符,跟字段之间、数据行之间的分隔符区分开。
2.2 执行流程
导入db2.t :load data infile '/server_tmp/t.csv' into table db2.t;
1. 打开文件 /server_tmp/t.csv, (\t) 作为字段分隔符,(\n)记录分隔符,数据读取;
2. 启动事务。每行字段数与表 db2.t 相同,构造一行,写入表中。否则报错回滚
3. 重复2,直到/server_tmp/t.csv 读完提交
2.3 binlog_format=statement,load 语句记到 binlog 里,怎么在备库重放?
/server_tmp/t.csv 只保存主库,写到 binlog 中,备库没有,导致主备同步停止。
1. 主库执行完成后, /server_tmp/t.csv 内容写到 binlog
2. load data local infile ‘/tmp/SQL_LOAD_MB-1-0’ INTO TABLE `db2`.`t`。//客户端本地
3. 把binlog 传备库。
4. a读 binlog 中 t.csv ,写/tmp/SQL_LOAD_MB-1-0 (本地临时目录);
4. b执行 load data 句,往备库 db2.t 插入主库相同数据。
2.4 load data 命令有两种用法:
1. 不加“local”,读服务端,secure_file_priv 指定目录或子目录;
2. local,客户端文件,客户端传服务端load data
select …into outfile 不生成表结构文件, mysqldump –tab导出表结构定义文件和 csv 数据文件。
mysqldump -h$host -P$port -u$user ---single-transaction
--set-gtid-purged=OFF db1 t --where="a>900" --tab=$secure_file_priv
在$secure_file_priv 目录下,创建 t.sql 保存建表语句, t.txt 文件保存 CSV 数据。
三、物理拷贝方法
上面都是逻辑方法,db1.t 读出,生成文本,写入 db2.t。
不能把 db1.t 表的.frm 和.ibd 文件拷到 db2 目录,因为数据字典中没注册,系统不识别
可传输表空间(transportable tablespace) 方法,导出 + 导入表空间,物理拷贝
db1 库下,复制表 t 相同表 r
1. create table r like t
2. alter table r discard tablespace,删除 r.ibd;
3. flush table t for export,db1 生成 t.cfg //db1.t 只读状态,直到5
4. db1 目录下执行 cp t.cfg r.cfg; cp t.ibd r.ibd;这两个命令(注意,拷贝得到两个文件,进程要有读写权限);
5. unlock tables,删除 t.cfg;
6. alter table r import tablespace, r.ibd 作为表 r 新表空间,数据和 t.ibd 相同
修改 r.ibd 表空间 id,让表空间 id (存在每个数据页中)和数据字典中一致。很大文件(TB 级别)每个数据页都要改
小结
1. 物理拷贝,速度快,尤其大表误删表,备份恢复之前临时库,拷贝到生产库上,必须全表拷贝。源表和目标表都 InnoDB 才能用。
2. mysqldump 生成包含 INSERT 语句,只导出部分数据。不能用 join 这种比较复杂的 where 条件写法。
3. select … into outfile 最灵活,缺点:每次只导出一张表数据,表结构另外备份。
2.3逻辑备份,可跨引擎
思考题
binlog_format=statement,binlog 记录的 load data 命令是带 local 的。发送到备库去执行的,备库执行的时候也是本地执行,为什么要local ?不带 local,出现什么问题呢?
确保备库用 binlog 正常。可能配置secure_file_priv=null,不用 local 导入失败,造成主备同步延迟。
用 mysqlbinlog 工具解析 binlog 文件,应用目标库 :
mysqlbinlog $binlog_file | mysql -h$host -P$port -u$user -p$pwd
日志解析发给目标库执行。增加 local,支持非本地 $host。
@poppy 、@库淘淘 两位同学提到了第一个场景;
@王显伟 @lionetes 两位同学帮忙回答了 @undifined 同学的疑问,拷贝出来的文件要确保 MySQL 进程可以读。