MySQL 数据表的更新流程中,涉及到两个重要的日志模块:redo log (重做日志)和 binlog (归档日志)
redo log
在 MySQL 中,如果每一次的更新操作都需要写进磁盘,然后磁盘也要找到对应的那条记录,然后再更新,整个过程 IO 成本、查找成本都很高。为了解决这个问题,MySQL 使用了 WAL(Write-Ahead Logging) 技术,他的关键点就是先写日志,等系统空闲时再写磁盘。
- write pos 是当前记录的位置,一边写一边后移
- checkpoint 是当前要擦除的位置,也是往后推移并且循环的,擦除记录前要把记录更新到数据文件
- write pos 和 checkoutpoint之间的是空余部分,可以用来记录新的操作
- 如果 write pos 追上 checkpoint,表示 redo log 满了,这时候不能再执行新的更新,需要停下将更新磁盘,将 checkpoint 推进一下
有了 redo log ,InnoDB 就可以保证及时数据库发生异常重启,之前提交的记录都不会丢失,这个能力成为 crash-safe。
binlog
- redo log 是 InnoDB 引擎特有的;binlog 是MySQL 的 Server 层实现的,所有引擎都可以使用
- redo log 是物理日志,记录的是 “在某个数据也上做了什么修改”;binlog 是逻辑日志,记录的是这个语句的原始逻辑,binlog 有两种模式:statement 格式记录的是 sql 语句;row 格式会记录更新前和更新后的行的内容
- redo log 是循环写的,空间固定会用完;binlog 是可以追加写入的
update T set c=c+1 where ID=2;
浅色框(InnoDB) 深色框(执行器)
①执行器先找引擎取 ID=2 这一行,如果这一行所在的数据也本就在内存中,直接返回给执行器;否则需要先从磁盘读入内存,然后再返回
②执行器拿到引擎给的行数据,把这个值加上1,得到新的一行数据,在调用引擎接口写入这行数据
③引擎将这行新数据更新到内存中,同时将这个更新操作记录到 redo log 里面,此时 redo log 处于 prepare 状态。然后告知执行器执行完成了,随时可以提交事务
④执行器生成这个操作的 binlog,并把 binlog 写入磁盘
⑤执行器调用引擎的提交事务接口,引擎把刚刚写如的 redo log 改成提交(commit)状态,更新完成
两阶段提交
将 redo log 的写入拆成了两个步骤:prepare 和 commit,这就是两阶段提交。两阶段提交是为了让两份日志之间的逻辑一致。
由于 redo log 和 binlog 是两个独立的逻辑,如果不用两阶段提交,要么先写完 redo log 再写 binlog,或者先写完 binlog 再写 redo log,都是会有问题的。
先写 redo log 后写 binlog
如果在 redo log 写完,bin log 还没有写完的时候,MySQL 进程异常重启。redo log 写完之后,系统及时崩溃,仍然能够把数据恢复回来,所以恢复后这一行 c 的值是 1。
但是由于 binlog 没写完就 crash 了,这时候 binlog 里面就没有记录这个语句。因此,根据 binlog恢复出来的临时库,这一行 c 的值是0,与原库的值不同。
先写 binlog 后写 redo log
如果在 binlog 写完之后 crash,由于 redo log 还没写,崩溃恢复以后这个事务无效,所以这一行的 c 的值是 0。
但是 binlog 里面已经记录了 “把 c 从 0 改成 1”这个日志,所以用 binlog 恢复出来的时候就多了一个事务,恢复后的临时库中这行 c 的值就是 1,与原库的值不同。
redo log 和 binlog 都可以用于表示事务的提交状态,而两阶段提交就是让这两个状态保持逻辑上的一致。在一些误操作数据库后、扩容,需要通过 binlog 来恢复数据库时,必须使用两阶段提交来保证恢复出来的数据的正确性。