聊一下mysql的表复制

1 insert...from的问题

insert … select 是很常见的在两个表之间拷贝数据的方法。需要注意,在可重复读隔离级别下,这个语句会给
select的表里扫描到的记录和间隙加读锁。

以下对insert...select 进行一下测试

  1. 全表读或主键排序读
sessionA
mysql> insert into trajectory_min_section_0511_copy select * from trajectory_min_section_0511; 

sessionB
mysql> show engine innodb status;
1451 lock struct(s), heap size 155856, 121231 row lock(s), undo log entries 119783

mysql> show engine innodb status;
3088 lock struct(s), heap size 303312, 258340 row lock(s), undo log entries 255254

mysql> show engine innodb status;
15004 lock struct(s), heap size 1466576, 1256305 row lock(s), undo log entries 1241304

终止sessionA后
sessionB
mysql> show engine innodb status;
ROLLING BACK 23737 lock struct(s), heap size 2302160, 1987628 row lock(s), undo log entries 471818

mysql> show engine innodb status;
ROLLING BACK 23737 lock struct(s), heap size 2302160, 1987628 row lock(s), undo log entries 20019

通过测试可以看到row locks是一个慢慢增长的过程。undo log entries也在一直增长,这个的作用是为了rollback恢复。
用主键升序插入以及用主键降序插入:
select * from trajectory_min_section_0511 order id(PK) ASC
select * from trajectory_min_section_0511 order id(PK) DESC
也是一样的效果,感兴趣的可以测试一下。

从上面测试可知:通过主键排序或则不加排序字段的导入操作"insert into A select * from B",是会锁B表,但他的锁是逐步地锁定已经扫描过的记录。

当终止后可以看到undo log entries数量慢慢降下去

  1. 非主键排序读
sessionA
mysql> insert into trajectory_min_section_0511_copy select * from trajectory_min_section_0511 order by t_distance desc; 

sessionB
sessionA执行过程中执行n次
mysql> show engine innodb status;
63595 lock struct(s), heap size 6168784, 5325513 row lock(s), undo log entries 5118624

从上面测试可知:非主键排序的导入操作,是会锁表,而且糟糕的是,锁是一开始就会锁定整张表。

  1. 读写验证
sessionA
mysql> insert into trajectory_min_section_0511_copy select * from trajectory_min_section_0511; 

sessionB
mysql> select * from trajectory_min_section_0511 where id=1715
搜索靠前主键数据可以正常返回

mysql> update trajectory_min_section_0511 set direction=2 where id=1715
更新靠前主键数据超时无法返回



sessionA
mysql> insert into trajectory_min_section_0511_copy select * from trajectory_min_section_0511 order by id desc; 

sessionB
mysql> select * from trajectory_min_section_0511 where id=9999
搜索靠后主键数据可以正常返回

mysql> update trajectory_min_section_0511 set direction=2 where id=1715
更新靠后主键数据超时无法返回

以上测试在上锁过程中,不能dml操作任何被上锁的行,直到锁释放。

如果已知对源表的扫描行数和加锁范围很小的话,简单地使用insert … select 语句即可实现。如果对线上重点表迁移,为了避免对源表加读锁,更稳妥
的方案是先将数据写到外部文本文件,然后再写回目标表。

2 高效加载数据

提高写入、加载速度的几个原则,这些原则在任何数据库上都是通用的:

  1. 把数据从缓存刷新到磁盘次数越少,数据加载的越快。因此,批量加载一定是比单条加载效率更高,因为批量插入的行可以先行缓存,然后在
    加载操作时候一次性刷到磁盘上,减少磁盘的随机读操作。

  2. 表的索引越少,加载速度越快,如果表有多个列存在索引,每次插入都需要更新所有索引完后才会识别到新的行加入。所以不要建无谓的索引。

  3. 短sql比长sql加载速度更快,因为在服务器上解析操作耗时更少,并且可以更快的通过网络发送到服务器。

加载数据一般有insert和load两种,接下来详细解读一下底层实现的不同。

2.1 load主备同步流程

  1. 主库执行完成后,将/root/table.txt文件的内容直接写到一个外部文件中。

  2. 往binlog文件中写入语句load data local infile ‘/tmp/SQL_LOAD_MB-1-0’ INTO TABLE db2.t
    读取本地文件

  3. 把这个binlog日志传到备库。

  4. 备库的apply线程在执行这个事务日志时:
    先将binlog中t.csv文件的内容读出来,写入到本地临时目录/tmp/SQL_LOAD_MB-1-0 中;
    再执行load data语句,往备库的db2.t表中插入跟主库相同的数据。

147d3f6f.png

2.2 总结

总的来说,根据官方介绍load可以快出insert 20多倍

load 的底层实现的优化:
1 跳过sql解析,直接生成数据文件;
2 在导入之前会关掉索引,导入完成后更新索引;而与之对比的Insert的处理机制是:每插入一条则更新一次数据库,更新一次索引。

官网的一些解答


f01fa40b.png

[insert-optimization]{https://dev.mysql.com/doc/refman/8.0/en/insert-optimization.html}

load-data

4 数据拷贝方法

介绍三种mysql数据拷贝的主流方法,分别是mysqldump(sql语句拷贝)、load(csv文件拷贝)、以及物理文件拷贝。

4.1 mysql dump

mysqldump -h$host -P$port -u$user --add-locks=0 --no-create-info --single-transaction  --set-gtid-purged=OFF db1 t --where="a>900" --result-file=/client_tmp/t.sql

主要参数含义如下:

–single-transaction的作用是,在导出数据的时候不需要对表db1.t加表锁,而是使用START TRANSACTION WITH CONSISTENT SNAPSHOT的方法;

–add-locks设置为0,表示在输出的文件结果里,不增加" LOCK TABLES t WRITE;" ;

–no-create-info的意思是,不需要导出表结构;

–set-gtid-purged=off表示的是,不输出跟GTID相关的信息;

–result-file指定了输出文件的路径,其中client表示生成的文件是在客户端机器上的。

通过这条mysqldump命令生成的t.sql文件中就包含了如图1所示的INSERT语句。

ae0f129a.png

可以看到一个insert中包含多个value对,这样插入执行速度可以加快。

这也是navicat 上 data transfer功能

148c3bcb.png

4.2 load

show variables like ‘%secure_file_priv%’; 

如果设置为empty,表示不限制文件生成的位置,这是不安全的设置;
如果设置为一个表示路径的字符串,就要求生成的文件只能放在这个指定的目录,或者它的子目录;
如果设置为NULL,就表示禁止在这个MySQL实例上执行select … into outfile 操作。

通过修改配置文件永久生效

4f4991f4.png

设置后可以通过命令导出

select * from db1.t where a>900 into outfile '/server_tmp/t.csv';

导出的csv文件可以用如下命令导入

load data infile '/server_tmp/t.csv' into table db2.t;

拷贝到数据库本地后,可以用本地导入,比远程导入更快,因为省去了在load这个事务中网络传输,减轻数据库压力。

load data local infile '/server_tmp/t.csv' into table db2.t;

4.3 物理拷贝

在掌握了逻辑拷贝的方法后,是否有物理导数据的方法呢?比如,直接把db1.t表的.frm文件和.ibd文件拷贝到db2目录下,是否可行呢?

答案是不行的。

因为,一个InnoDB表,除了包含这两个物理文件外,还需要在数据字典中注册。直接拷贝这两个文件的话,因为数据字典中没有db2.t这个表,系统是不会识别和接受它们的。

不过,在MySQL 5.6版本引入了可传输表空间(transportable tablespace)的方法,可以通过导出+导入表空间的方式,实现物理拷贝表的功能。

假设我们现在的目标是在db1库下,复制一个跟表trajectory_min_section_0511相同的表trajectory_min_section_0511_copy,具体的执行步骤如下:

-- 源端执行

  1. flush table trajectory_min_section_0511 for export
    这时候数据库目录下会生成一个trajectory_min_section_0511.cfg文件;
  2. cp trajectory_min_section_0511.ibd trajectory_min_section_0511_copy.ibd;
    在db1目录下执行cp trajectory_min_section_0511.cfg trajectory_min_section_0511_copy.cfg; 这两个命令(
    这里需要注意的是,拷贝得到的两个文件,MySQL进程要有读写权限);
  3. unlock tables
    trajectory_min_section_0511.cfg文件会被删除;

-- 目标端执行

  1. create table trajectory_min_section_0511_copy like trajectory_min_section_0511;
    首先创建一个相同表结构的空表
  2. alter table trajectory_min_section_0511_copy discard tablespace;
    这时候trajectory_min_section_0511_copy.ibd文件会被删除
  3. alter table trajectory_min_section_0511_copy import tablespace
    将这个trajectory_min_section_0511_copy.ibd文件作为表trajectory_min_section_0511_copy的新的表空间,
    由于这个文件的数据内容和trajectory_min_section_0511.ibd是相同的,所以表trajectory_min_section_0511_copy中
    就有了和表trajectory_min_section_0511相同的数据。

测试后最后一步导入500w耗时10s左右,其他操作都是立刻执行


7c9e2e74.png

几点注意:

  1. 在第3步执行完flush table命令之后,整个表trajectory_min_section_0511处于只读状态,直到执行unlock tables命令后才释放读锁;

  2. 在执行import tablespace的时候,为了让文件里的表空间id和数据字典中的一致,会修改trajectory_min_section_0511_copy.ibd的表空间id。
    而这个表空间id存在于每一个数据页中。因此,如果是一个很大的文件(比如TB级别),每个数据页都需要修改,import语句的执行是需要一些时间的。
    当然,如果是相比于逻辑导入的方法,import语句的耗时是非常短的。

4.4 三种方式对比

对比一下这三种方法的优缺点。

  1. 物理拷贝的方式速度最快,尤其对于大表拷贝来说是最快的方法。如果出现误删表的情况,用备份恢复出误删之前的临时库,然后再把临时库中的表拷贝到生产库上,是恢复数据最快的方法。但是,这种方法的使用也有一定的局限性:

    a) 必须是全表拷贝,不能只拷贝部分数据;
    b) 需要到服务器上拷贝数据,在用户无法登录数据库主机的场景下无法使用;
    c) 由于是通过拷贝物理文件实现的,源表和目标表都是使用InnoDB引擎时才能使用。

  2. 用mysqldump生成包含INSERT语句文件的方法,可以在where参数增加过滤条件,来实现只导出部分数据。这个方式的不足之一是,不能使用join这种比较复杂的where条件写法。

  3. 用select … into outfile的方法是最灵活的,支持所有的SQL写法。但,这个方法的缺点之一就是,每次只能导出一张表的数据,而且表结构也需要另外的语句单独备份。

后两种方式都是逻辑备份方式,是可以跨引擎使用的。

5 当数据量很大时

抛开最后一种物理拷贝,因为在线上时不一定可以登录数据库主机,而且也可能只拷贝部分数据。那一般就是使用load data infile方式导入。

当数据量极大(10+G,千万级别)时,用之前介绍的方式会有很大问题。

  1. load为一个长事务,最后commit后才插入数据库。
  2. undo增长快速,无法回收。数据库性能下降,undo大小大于buffer pool,就会开始内存和磁盘的交换。

可以大文件拆小,监控cpu后,在合理的利用率情况下,多线程load。

6 扩展知识点

针对并发场景的一致性问题,第一个能想到的是加锁,但是数据库中所有操作都上锁势必会带来性能的低下,mysql的隔离级别(isolation level)最高级叫串行化,

其设计上可以认为就是加一把大锁,读的时候加共享锁,不能写,写的时候,加的是排它锁,阻塞其它事务的写入和读取,若是其它的事务长时间不能写入就会直接报超时,所以它的性能也是最差的,对于它来就没有什么并发性可言。

在InnoDB 的读提交和可重复读两种级别都使用了多版本并发控制模型(MVCC)

比如在实现可重复读的隔离级别,只需要在事务开始的时候创建一致性视图,也叫做快照,之后的查询里都共用这个一致性视图,后续的事务对数据的更改
是对当前事务是不可见的,这样就实现了可重复读。 中每一个事务都有一个自己的事务id,并且是唯一的,递增的 。

71a299d8.png
  1. 最开始数据的版本是V0;

  2. T1时刻发起了一个写任务,这是把数据clone了一份,进行修改,版本变为V1,但任务还未完成;

  3. T2时刻并发了一个读任务,依然可以读V0版本的数据;

  4. T3时刻又并发了一个读任务,依然不会阻塞;

对于Mysql中的每一个数据行都有可能存在多个版本,在每次事务更新数据的时候,都会生成一个新的数据版本,并且把自己的数据id赋值给当前版本的row trx_id。

e6536994.png

如图中所示,假如三个事务更新了同一行数据,那么就会有对应的三个数据版本。

实际上版本1、版本2并非实际物理存在的,而图中的U1和U2实际就是undo log,这v1和v2版本是根据当前v3和undo log计算出来的。

当出现事务回滚的时候,通过undo log反向重现redo log的过程,就可以将当前数据回退回事务开始前数据状态。

当事务提交后undo块就会慢慢的回收。要避免长事务,因为如果长事务中有更新,就意味着占用着行锁,导致别的语句更新被锁。还有读的事务会导致undo log不能回收,导致回滚段空间膨胀。
扩展阅读 万字长文,帮你梳理存储引擎之Heap表关键知识点

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,772评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,458评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,610评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,640评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,657评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,590评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,962评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,631评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,870评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,611评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,704评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,386评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,969评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,944评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,179评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,742评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,440评论 2 342

推荐阅读更多精彩内容